KisSean on Nostr: ...
换另一个角度说可能更好,LLM其实就是网络上的内容的抽象化和总结。先不说中文被允许用来训练的语料的范围,就中文的环境,在太多方面不能和英文提供的资料和事实相提并论了。
“中文也可以选出合适的语料训练,如果你是说某些政治性知识不对,这没办法,但不影响训练,而且英文世界里也有很多。” 暴论一下: 中文世界的环境从来没系统性地建立过什么舆论环境。例如 平等、自由 和 普世价值这些观念一直被污名化,那就算这些内容没被审核,得出来的也是不符合逻辑/现实人民需求的东西。英文世界当然也不是绝对符合逻辑,但要说和中文世界比,那就是在侮辱人类的智慧,不然为啥这么多人跑到twitter和nostr上来聊。
更大的问题是,中国已经超级泛意识形态斗争化了,简单说些什么都能辱华和境外势力。注意,这和发达国家的政治正确没法比,发达国家的政治不正确虽然被打压,在主流网络上是有生存空间的。例如 你搜”华为是不是抄袭android“,”华为是不是龙岗必胜客“,这些话题要么已经被删帖了,要么各种转移话题洗地。 又例如”5G是不是过誉了“,答案大概是美国打压中国尖端产业,5G的先进性还要过很多年才能看到这样。
还是说你以为人工标注是慢慢挑数据,LLM已经不可能这样了,可能有少量被调整的数据。都是训练完后再人工审核的,模型是不变的,审核发生在RLHF层,这也是我觉得这些LLM现在还远远不能用的原因,问深一层都开始编故事了。但那和在一开始就不给正确答案的中文圈里训练出来的东西完全不一样。你想要一个”好“的数据库来训练,还约等于重做一遍中文互联网。有太多问题,我和你都能达成简单共识的答案,例如问白纸革命是什么;因为删帖,中文圈训练出来的AI很可能说不知道,或开始编故事。这样出来的东西就是中文互联网的一个延申 (不过LLM其实就是互联网的延申),绝对会帮助打压底层的人 或 使大部分人一些符合逻辑的想法破灭,包括翻墙这么显而易见的事。
“中文也可以选出合适的语料训练,如果你是说某些政治性知识不对,这没办法,但不影响训练,而且英文世界里也有很多。” 暴论一下: 中文世界的环境从来没系统性地建立过什么舆论环境。例如 平等、自由 和 普世价值这些观念一直被污名化,那就算这些内容没被审核,得出来的也是不符合逻辑/现实人民需求的东西。英文世界当然也不是绝对符合逻辑,但要说和中文世界比,那就是在侮辱人类的智慧,不然为啥这么多人跑到twitter和nostr上来聊。
更大的问题是,中国已经超级泛意识形态斗争化了,简单说些什么都能辱华和境外势力。注意,这和发达国家的政治正确没法比,发达国家的政治不正确虽然被打压,在主流网络上是有生存空间的。例如 你搜”华为是不是抄袭android“,”华为是不是龙岗必胜客“,这些话题要么已经被删帖了,要么各种转移话题洗地。 又例如”5G是不是过誉了“,答案大概是美国打压中国尖端产业,5G的先进性还要过很多年才能看到这样。
还是说你以为人工标注是慢慢挑数据,LLM已经不可能这样了,可能有少量被调整的数据。都是训练完后再人工审核的,模型是不变的,审核发生在RLHF层,这也是我觉得这些LLM现在还远远不能用的原因,问深一层都开始编故事了。但那和在一开始就不给正确答案的中文圈里训练出来的东西完全不一样。你想要一个”好“的数据库来训练,还约等于重做一遍中文互联网。有太多问题,我和你都能达成简单共识的答案,例如问白纸革命是什么;因为删帖,中文圈训练出来的AI很可能说不知道,或开始编故事。这样出来的东西就是中文互联网的一个延申 (不过LLM其实就是互联网的延申),绝对会帮助打压底层的人 或 使大部分人一些符合逻辑的想法破灭,包括翻墙这么显而易见的事。