Scaling Law 遇到瓶颈，Self-Play RL可能是新的通往AGI的靠谱路径。 ...

Scaling Law 遇到瓶颈，Self-Play RL可能是新的通往AGI的靠谱路径。

张小珺Jùn访谈前OpenAI 研究员，讨论OpenAI o1和self-play RL

https://t.co/EjYwB3JuPX

1. Scaling Law 可能遇到瓶颈，有三个问题

① 参数：现有模型参数规模难以突破，且收益递减。

② 数据：获取高质量文本数据的难度越来越大。

③ 算力：现有 GPU 集群规模难以大幅提升，且运维成本高昂。

例如：英伟达B100 GPU 尚未问世，短期内算力瓶颈。

马斯克 XAI 的十万卡集群策略或许能带来突破，但是超大规模集群运维和训练难度极高，挑战巨大。

2. 如何突破Scaling Law的瓶颈？

三条潜在路线：多模态、十万卡集群、强化学习。

多模态：引入视觉等多模态数据，但目前缺乏证据表明其能带来智能水平的提升。

十万卡集群：通过更大规模的算力集群来突破瓶颈，但技术难度和运维成本巨大。

强化学习（RL）：被认为是最具潜力、最接近人类学习方式的方法，可能成为新的 Scaling Law。

3. 什么是强化学习？

让 AI 通过随机路径尝试新任务，并根据奖励反馈机制更新神经网络权重，从而学习如何完成任务。

LLM侧重于利用现有数据，而强化学习更强调 AI 的自主探索和决策能力，更接近人类的学习方式。

Self-Play RL、传统 RL 和 RLHF 的区别

自博弈强化学习 (self-play RL) 是强化学习的一种特殊形式，指的是 AI 与自身的不同版本进行对抗训练，从而不断提升自身的能力。

这种方法在游戏领域，如 AlphaGo 和 AlphaStar 中取得了巨大的成功，展现出了超越人类的智能水平。

RLHF 的主要目的是让人工智能模型的行为更符合人类的偏好，而不是追求超越人类的超级智能。

与 Self-Play RL 相比，RLHF 更侧重于人机对齐，而不是提升模型的逻辑推理能力。

Self-Play RL 与传统的 RL 的主要区别在于智能体的计算量大幅增加，例如 AlphaZero 与今天的大语言模型相比，参数量相差了三到四个数量级。

4. 点评AI赛道：代码、视频、机器人

代码生成：AI 编程工具的兴起，如 Cursor。大众消费级编程工具的巨大潜力。Coding 成为 RL 新范式下最匹配的应用方向。

视频生成：SORA 推动了视频生成技术的进步。DIT 路线潜力巨大。人人都是导演的时代即将到来。但视频生成领域的格局尚未稳定，存在巨大风险和机遇。

通用机器人：OpenAI 引爆了通用机器人赛道。目前仍处于早期阶段，技术突破是关键。商业化落地尚需时日，投资风险较大。

5. 点评硅谷主要玩家

OpenAI：商业化进程缓慢，产品策略有待改进。人才流动频繁，但核心团队稳定，影响有限。

Anthropic：Claude 3.5 表现亮眼，强化学习路线领先。创始团队技术实力雄厚，未来发展值得期待。

其他公司：Google、Tesla 在机器人领域具有优势，值得长期关注。Apple 作为硬件巨头，将从 AI 浪潮中持续受益。

向阳乔木 on Nostr: Scaling Law 遇到瓶颈，Self-Play RL可能是新的通往AGI的靠谱路径。 ...