What is Nostr?
GPTDAOCN-e/acc /
npub1ats…0ns2
2024-10-20 20:21:05

GPTDAOCN-e/acc on Nostr: 🚀 AI未来探索:OpenAI的o1如何通过搜索流(SoS)学习 🔍 ...

🚀 AI未来探索:OpenAI的o1如何通过搜索流(SoS)学习

🔍 有消息称@OpenAI的o1正在使用类似搜索流(SoS)的创新方法来掌握链式思维(CoT)推理。以下是详细内容:

什么是SoS?
在搜索流中,语言模型被训练以在一系列连续动作中执行结构化搜索和回溯。这一过程教会模型如何探索、自我纠正,并解决复杂的推理任务。数据流包括完整的搜索过程,包括步骤、错误和纠正动作。

实验过程:
- 🧩 训练LLM破解倒计时游戏,其中需要使用算术运算将数字组合以达到目标。
- 📊 使用启发式问题解决器生成500,000个问题的CoT/搜索路径。
- 🧠 在SoS数据上训练LLM,使其学会创建包含错误和恢复的完整搜索过程。

训练方法:STaR(自我教学推理者):
1. 使用控制随机性的“温度”生成CoT/搜索路径。
2. 筛选出正确的轨迹。
3. 在这些成功路径上训练LLM。
4. 重复以加强效果。

关键见解:
- ❌ 为现实世界问题收集CoT/搜索轨迹非常困难且昂贵。
- 👀 数据集捕捉所有可能路径,而不仅仅是最佳路径,反映真实探索过程。
- 🧮 只有57%的合成样本达到了正确解。
- 🥇 使用SoS数据训练使准确率比仅用最佳路径提高了25%。
- 📈 使用STaR微调又提高了约6%。
- 💫 解决了启发式生成数据集中36%更多未解决的问题。
- 🧠 模型通过探索不同路径、犯错和回溯来模拟人类问题解决方式。
- 📝 在训练中暴露于错误提升了识别和纠正错误的能力。

这种方法展示了AI如何能够像人类一样,通过试错不断优化策略。这会是AI推理的未来吗?🌟
Author Public Key
npub1atst8p6wc9xz0aezu7csvqxyrevrnckc2ckpt4q5gsgpthq0n0ese50ns2