我基本知道你什么意思了。 ...

npub17ry…9shm

2023-03-18 03:39:05

in reply to nevent1q…u7ze

我基本知道你什么意思了。

你认为中文世界绝大部分内容都是被政治清洗过的错误信息，或者中医这种有矛盾争议的内容，所以不能用来训练，且不说我不认为中文世界是你想的样子，与此无关的内容占多数。

语料当然是大规模抓取后清洗的，但对LLM来说，能否有效训练，数据质量更多是数学意义的，而不是知识意义的，所以垃圾广告也能训练，只是质量需要处理。

对于语料包含的知识内容，ChatGPT的英文语料中也包含支持顺势医学的内容，本来在西方顺势医学受众就有一批，里面也不会包含美国政府不想让你知道的内容，否则你可以问问斯诺登。

通常认为LLM除了语法外还学到了某种先验知识，实际LLM并不会坚守这种知识，除非监督强化。完全相同的英文语料给LLM，后面也可以人为诱导出不同的，甚至很极端的倾向，因此可以人为输入意识形态倾向。

ChatGPT这路线出现Prompt Engineer就是这个原因，有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。

如果你说只能训练出在某些问题上体现中国特色的AI，那么我同意。

Author Public Key

npub17ryxfn6h8hshzpfmaaxl8vcuvkfnx7sf07aanusd0pgxujgvddjq7y9shm

Show more details

Published at

2023-03-18 03:39:05

Kind type

1 Short Text Note

Event JSON

{ "id": "253c4e73c432e8c23ad4f89c412df2f40cd7f1ec9e714e2ef56b982e61946ae3", "pubkey": "f0c864cf573de171053bef4df3b31c6593337a097fbbd9f20d78506e490c6b64", "created_at": 1679110745, "kind": 1, "tags": [ [ "e", "6d1ba0602ed6dfe3bf919e4537fefe3ef9a7030d2b2399f130486e2c6bd913cb", "" ], [ "e", "a3305758aaaed8c5f82dd217115bff7b8646fac16e7d0afa1dfa871b08b9222e" ], [ "p", "53a8392e971b46326e3d0f8967db17c4f7cca4d42be979b1664124c8f69af528" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ], [ "p", "0d6f3fb7f3c83755ea731380516167da6691cea0d7ddf4865505d291687ca343" ] ], "content": "我基本知道你什么意思了。\n\n你认为中文世界绝大部分内容都是被政治清洗过的错误信息，或者中医这种有矛盾争议的内容，所以不能用来训练，且不说我不认为中文世界是你想的样子，与此无关的内容占多数。\n\n语料当然是大规模抓取后清洗的，但对LLM来说，能否有效训练，数据质量更多是数学意义的，而不是知识意义的，所以垃圾广告也能训练，只是质量需要处理。\n\n对于语料包含的知识内容，ChatGPT的英文语料中也包含支持顺势医学的内容，本来在西方顺势医学受众就有一批，里面也不会包含美国政府不想让你知道的内容，否则你可以问问斯诺登。\n\n通常认为LLM除了语法外还学到了某种先验知识，实际LLM并不会坚守这种知识，除非监督强化。完全相同的英文语料给LLM，后面也可以人为诱导出不同的，甚至很极端的倾向，因此可以人为输入意识形态倾向。\n\nChatGPT这路线出现Prompt Engineer就是这个原因，有些媒体当时评测New Bing表现出的示爱之类情绪化行为就是这么来的。\n\n如果你说只能训练出在某些问题上体现中国特色的AI，那么我同意。", "sig": "b858c05d4f8d2111ba8ae706eebfe2a69465dbd3a418ff3cdd65436c6910541512e89f16a88d4f4aa1d835587bc5fb0eaca611cb05a46c669f3442d4501b10eb" }