nodez on Nostr: 我基本知道你什么意思了。 ...
我基本知道你什么意思了。
你认为中文世界绝大部分内容都是被政治清洗过的错误信息,或者中医这种有矛盾争议的内容,所以不能用来训练,且不说我不认为中文世界是你想的样子,与此无关的内容占多数。
语料当然是大规模抓取后清洗的,但对LLM来说,能否有效训练,数据质量更多是数学意义的,而不是知识意义的,所以垃圾广告也能训练,只是质量需要处理。
对于语料包含的知识内容,ChatGPT的英文语料中也包含支持顺势医学的内容,本来在西方顺势医学受众就有一批,里面也不会包含美国政府不想让你知道的内容,否则你可以问问斯诺登。
通常认为LLM除了语法外还学到了某种先验知识,实际LLM并不会坚守这种知识,除非监督强化。完全相同的英文语料给LLM,后面也可以人为诱导出不同的,甚至很极端的倾向,因此可以人为输入意识形态倾向。
ChatGPT这路线出现Prompt Engineer就是这个原因,有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。
如果你说只能训练出在某些问题上体现中国特色的AI,那么我同意。
你认为中文世界绝大部分内容都是被政治清洗过的错误信息,或者中医这种有矛盾争议的内容,所以不能用来训练,且不说我不认为中文世界是你想的样子,与此无关的内容占多数。
语料当然是大规模抓取后清洗的,但对LLM来说,能否有效训练,数据质量更多是数学意义的,而不是知识意义的,所以垃圾广告也能训练,只是质量需要处理。
对于语料包含的知识内容,ChatGPT的英文语料中也包含支持顺势医学的内容,本来在西方顺势医学受众就有一批,里面也不会包含美国政府不想让你知道的内容,否则你可以问问斯诺登。
通常认为LLM除了语法外还学到了某种先验知识,实际LLM并不会坚守这种知识,除非监督强化。完全相同的英文语料给LLM,后面也可以人为诱导出不同的,甚至很极端的倾向,因此可以人为输入意识形态倾向。
ChatGPT这路线出现Prompt Engineer就是这个原因,有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。
如果你说只能训练出在某些问题上体现中国特色的AI,那么我同意。