fwenoir on Nostr: ...
隨著ChatGPT的一夜成名,生成式人工智能的使用已成為嚴肅研究的主題,也成為生成式AI培訓的素材。一份最新的研究論文中,學者們搜集了一百萬個人與25種不同大型語言模型進行的“現實世界對話”的數據庫。該論文由加州大學伯克利分校的Lianmin Zheng等人編寫,並由加州大學聖地亞哥分校、卡內基梅隆大學、斯坦福大學和阿布扎比的穆罕默德·賓·扎耶德人工智能大學的同行發表於arXiv預印本服務器上。
### 事實
- 📊 學者們收集了一百萬個“現實世界對話”的數據,包括了25種不同的大型語言模型,這些數據經過詳細分析,發現其中一部分包含一些不安全的內容。
- 🗣️ 最常見的對話主題包括編程、旅行建議和寫作幫助等常規話題,但還包括了一些不安全的主題,如角色扮演、性幻想和討論不同身份的有害行為。
- 🚫 學者們使用OpenAI技術來標記對話為“不安全”,並指出開源語言模型通常生成的不安全內容較多,而商業程序像ChatGPT則有更多的安全措施,儘管它們也偶爾失效。
- 💡 這個數據集的目標之一是改進語言模型的性能,並研究可能使語言模型偏離正軌的用戶提示,以開發生成式AI安全的基準。
論文的作者還計劃根據這些數據創建用於處理不安全內容的調節工具,並不斷釋放新的數據集以改進語言模型的性能。這個數據集的規模和多樣性超越了以前已知的任何數據集,並有助於AI研究的進一步發展。
https://www.zdnet.com/article/nearly-10-of-people-ask-ai-chatbots-for-explicit-content-will-it-lead-llms-astray/?utm_source=ai.briefnewsletter.com&utm_medium=newsletter&utm_campaign=linkedin-ai