Ksuj on Nostr: 聊聊萝卜快跑和特斯拉自动驾驶 ...
聊聊萝卜快跑和特斯拉自动驾驶
实践「第一性原理思考」最大的挑战是什么?
是最小阻力的那条路
所谓最小阻力的那条路,就是只要我沿着它往前走,每走一步都可以立刻看到正反馈的路。
而任何时候,摆在我们面前的,其实永远会有一条最小阻力的路
但如果沿着最小阻力的路径去走,那也不需要思考了呀,因为任何人都会本能的去继续做那些可以立刻看到正反馈的事情。既然都不需要思考了,就更不需要第一性原理的思考了。
所以基于第一性原理的思考去做事情,其实从本质上来讲就是一条岔路,是一条一开始一定会落后,但未来有可能会弯道超车的路!而有些人之所以可以坚持下来,正是因为长期坚持用第一性原理的思维去思考。
但在任何时候,忍住不去做那些可以立刻看到正反馈的事情都是很难的。
特斯拉坚持纯视觉的自动驾驶路线,就纯粹是马斯克基于第一性原理的思考给逼出来的。马斯克认为,第一,人类所有道路的基建都是为了纯视觉设计的,因此单纯基于纯视觉就一定可以实现自动驾驶;第二,在第一条的前提下,加入激光雷达反而会增加额外的变量,导致它可能最终变成累赘,比如雨雪天气的问题等。
得出以上结论似乎不难,但最难的地方在于,激光雷达实在太好用了。任何团队,只要在自动驾驶技术中加入激光雷达,效果都会立竿见影。而基于纯视觉,可能好几年都不会有任何有意义的进展,因为 AI 的能力还不够。
所以马斯克把激光雷达比喻为拐棍,它非常好用,拄着拐棍的人可能立刻就可以站起来走路了,但它会限制人自身能力的提升。因为一旦拐棍用多了,人就没那么容易丢掉它了。就像技术路线,一旦走错了,到时候是要全部推倒重来的,而不是简单的把雷达去掉就行了。
这就是为什么我们只知道 Suno v3 而不知道 Suno v1 和 v2,因为它们太差了。
Suno 创始人在采访中说道:
“我们的思想就是 do the right thing,虽然一开始很难,而且效果会非常差,但长期来看这会是正确的路。这个思想就是 end to end,也就是端到端的训练模型。我们没有给模型输入任何关于音乐的知识,就像你不需要给 ChatGPT 输入这是名词,这是动词之类的任何关于语言的知识。为什么到 Suno V3 才突然变好?因为之前的版本太烂了!而一开始你其实也不知道端到端这条路最终能不能 work。任何你加入进去的音乐知识,短期内都会产出很好的效果,但长期内会限制你。”
这里有两个重点:
1、做 AI 的时候,只要加入人工的知识,短期内效果立竿见影
2、端到端的训练 AI(不加入任何人类知识,纯粹基于数据去训练),一开始效果一定很差,提升的速度也慢,所以你其实也不知道这条路最终能不能 work
这里人工的加入知识,就是那条阻力最小的路。而基于端到端的训练,就是基于第一性原理的思考。它是一条弯道超车的路线,而且我们一开始其实也不知道最终能不能超车,什么时候才能超车。因为短期内看不到正反馈,所以不确定性很高。
这其实来自于一条著名的 AI 领域的第一性原理:the Bitter Lesson。总结成一句话就是:短期内,人工越多,效果越好;长期内,人工越少,效果越好。而我们今天说端到端的大模型,就是不加入任何人类知识的模型。用 Sora 发明人的话说就是:nothing is explicit, everything is implicit - 训练 Sora 时没有加入任何显性的人类知识,所有东西都是大模型自己学到的。
今天的萝卜快跑和 Google 的 Waymo,都是基于高清地图 + 激光雷达 + 远程接管的模式,成本非常高,而且规模化的速度会很慢(要一个个城市,一个个区域去弄)。但它的效果是真的好,至少现在比 V12 好的多,可以说 Waymo 已经几乎实现 L4 了。
但特斯拉在走一条难而正确的路,特斯拉端到端 + 纯视觉的路线,一旦技术进步越过了零界点,就是 ChatGPT 时刻,我们就可以说 AI 就「学会了开车」,那么在任何时间,任何地点,它可以去任何地方。成本还很低,不需要高清地图,不需要激光雷达,不需要远程接管。
特斯拉在坚持第一性原理的思考。但这就是科技 + 商业的交汇,面对巨大的不确定性,岂能尽如人意。V12 最终能不能越过零界点,没有人知道。
P.S.
简单说明一下,特斯拉做了两个基于第一性原理的思考,一个是纯视觉,一个是端到端,但这两个并不是割裂的。因为前些年激光雷达非常贵,所以只有做纯视觉才能快速的把车投放市场,收集数据。只有收集的数据足够多,才能做端到端的大模型。而 Waymo 选了一条短期内成本高但效果也好的路线,缺陷就是收集的数据远远少于特斯拉。所以今天即便大家都共识了端到端的效果更好(因为被特斯拉 V12 验证了),Waymo 也要面临一个数据从哪来的问题。关于自动驾驶技术路线的争议一直都是非常大的,而且对于所有的技术路线选择问题,其实都只能 wait and see。弯道能不能超车,在超过去之前,永远都是不知道的。今天只能说特斯拉 V12 让超车的概率变大了不少。
实践「第一性原理思考」最大的挑战是什么?
是最小阻力的那条路
所谓最小阻力的那条路,就是只要我沿着它往前走,每走一步都可以立刻看到正反馈的路。
而任何时候,摆在我们面前的,其实永远会有一条最小阻力的路
但如果沿着最小阻力的路径去走,那也不需要思考了呀,因为任何人都会本能的去继续做那些可以立刻看到正反馈的事情。既然都不需要思考了,就更不需要第一性原理的思考了。
所以基于第一性原理的思考去做事情,其实从本质上来讲就是一条岔路,是一条一开始一定会落后,但未来有可能会弯道超车的路!而有些人之所以可以坚持下来,正是因为长期坚持用第一性原理的思维去思考。
但在任何时候,忍住不去做那些可以立刻看到正反馈的事情都是很难的。
特斯拉坚持纯视觉的自动驾驶路线,就纯粹是马斯克基于第一性原理的思考给逼出来的。马斯克认为,第一,人类所有道路的基建都是为了纯视觉设计的,因此单纯基于纯视觉就一定可以实现自动驾驶;第二,在第一条的前提下,加入激光雷达反而会增加额外的变量,导致它可能最终变成累赘,比如雨雪天气的问题等。
得出以上结论似乎不难,但最难的地方在于,激光雷达实在太好用了。任何团队,只要在自动驾驶技术中加入激光雷达,效果都会立竿见影。而基于纯视觉,可能好几年都不会有任何有意义的进展,因为 AI 的能力还不够。
所以马斯克把激光雷达比喻为拐棍,它非常好用,拄着拐棍的人可能立刻就可以站起来走路了,但它会限制人自身能力的提升。因为一旦拐棍用多了,人就没那么容易丢掉它了。就像技术路线,一旦走错了,到时候是要全部推倒重来的,而不是简单的把雷达去掉就行了。
这就是为什么我们只知道 Suno v3 而不知道 Suno v1 和 v2,因为它们太差了。
Suno 创始人在采访中说道:
“我们的思想就是 do the right thing,虽然一开始很难,而且效果会非常差,但长期来看这会是正确的路。这个思想就是 end to end,也就是端到端的训练模型。我们没有给模型输入任何关于音乐的知识,就像你不需要给 ChatGPT 输入这是名词,这是动词之类的任何关于语言的知识。为什么到 Suno V3 才突然变好?因为之前的版本太烂了!而一开始你其实也不知道端到端这条路最终能不能 work。任何你加入进去的音乐知识,短期内都会产出很好的效果,但长期内会限制你。”
这里有两个重点:
1、做 AI 的时候,只要加入人工的知识,短期内效果立竿见影
2、端到端的训练 AI(不加入任何人类知识,纯粹基于数据去训练),一开始效果一定很差,提升的速度也慢,所以你其实也不知道这条路最终能不能 work
这里人工的加入知识,就是那条阻力最小的路。而基于端到端的训练,就是基于第一性原理的思考。它是一条弯道超车的路线,而且我们一开始其实也不知道最终能不能超车,什么时候才能超车。因为短期内看不到正反馈,所以不确定性很高。
这其实来自于一条著名的 AI 领域的第一性原理:the Bitter Lesson。总结成一句话就是:短期内,人工越多,效果越好;长期内,人工越少,效果越好。而我们今天说端到端的大模型,就是不加入任何人类知识的模型。用 Sora 发明人的话说就是:nothing is explicit, everything is implicit - 训练 Sora 时没有加入任何显性的人类知识,所有东西都是大模型自己学到的。
今天的萝卜快跑和 Google 的 Waymo,都是基于高清地图 + 激光雷达 + 远程接管的模式,成本非常高,而且规模化的速度会很慢(要一个个城市,一个个区域去弄)。但它的效果是真的好,至少现在比 V12 好的多,可以说 Waymo 已经几乎实现 L4 了。
但特斯拉在走一条难而正确的路,特斯拉端到端 + 纯视觉的路线,一旦技术进步越过了零界点,就是 ChatGPT 时刻,我们就可以说 AI 就「学会了开车」,那么在任何时间,任何地点,它可以去任何地方。成本还很低,不需要高清地图,不需要激光雷达,不需要远程接管。
特斯拉在坚持第一性原理的思考。但这就是科技 + 商业的交汇,面对巨大的不确定性,岂能尽如人意。V12 最终能不能越过零界点,没有人知道。
P.S.
简单说明一下,特斯拉做了两个基于第一性原理的思考,一个是纯视觉,一个是端到端,但这两个并不是割裂的。因为前些年激光雷达非常贵,所以只有做纯视觉才能快速的把车投放市场,收集数据。只有收集的数据足够多,才能做端到端的大模型。而 Waymo 选了一条短期内成本高但效果也好的路线,缺陷就是收集的数据远远少于特斯拉。所以今天即便大家都共识了端到端的效果更好(因为被特斯拉 V12 验证了),Waymo 也要面临一个数据从哪来的问题。关于自动驾驶技术路线的争议一直都是非常大的,而且对于所有的技术路线选择问题,其实都只能 wait and see。弯道能不能超车,在超过去之前,永远都是不知道的。今天只能说特斯拉 V12 让超车的概率变大了不少。