What is Nostr?
dlmarie / dlmair
npub17je…g4ha
2023-03-18 06:12:06
in reply to nevent1q…2arc

dlmarie on Nostr: Scale law 也包括数据集, 中文语料太少。 ...

Scale law 也包括数据集, 中文语料太少。 当前存在的语料已经用完了, 后续的都是线性增产的语料, 不会有指数变化。

大模型的能力是在预训练时候已经获得的, 后续 监督微调/RLHF/incontext learn和 prompt 都是引导,不增加模型能力甚至减少模型能力。

总之, 关键在模型预训练, 语料不足(书、杂志、wiki、报纸、新闻、小说、各种出版物、网站出版物、 文档、 软件、游戏都太少太少了, 垃圾广告不少,但是垃圾广告千篇一律没信息量没 给不来泛化能力)

其他小语言语料更少, 语言语料训练不平衡,是gpt 自己提出他要解决的问题
Author Public Key
npub17jel8jr0u0vsnchdd9ya3hexsjxtsw0ngwhxlwlv5c0cn5y64j0q0eg4ha