PC エッチ XYZ on Nostr: 第一次走進台大文學院,感覺似乎變得有氣質了呢(? ...
第一次走進台大文學院,感覺似乎變得有氣質了呢(?
昨天在台大文學院舉辦的講座「本土語言 AI 技術的機會與挑戰」,講者是陽明交大的廖元甫教授。本土語言在 LLM 訓練最大的挑戰是資料量不足,還記得前一陣子中研院釋出的語言模型 CKIP-Llama-2-7b 有「傾中」的問題嗎?因為它使用了 2 個資料集是由簡轉繁的,以至於容易做出符合中國情境的回答。
廖教授用了很多公視的語料,但是欠缺夠多「會聽會寫」的人力將這些音檔文字化,所以目前模型的發音還是不太行。然而時間不等人,各個年齡層能嫻熟使用本土語言的比例是愈來愈低,因此 Tâi-gí 人在日常生活中「多講多寫」都會有幫助。#tâi-gí
https://seediqbale.xyz/files/81c2f6f8-2f79-46ab-a266-c106852048c0
https://seediqbale.xyz/files/905158aa-239a-4a63-8343-146ec75144fb
https://seediqbale.xyz/files/e3591f52-643d-4f8c-b4b2-b96c98bc36f9
https://seediqbale.xyz/files/512c0d2f-a74a-4345-bf6c-6dd37fd09eb2
昨天在台大文學院舉辦的講座「本土語言 AI 技術的機會與挑戰」,講者是陽明交大的廖元甫教授。本土語言在 LLM 訓練最大的挑戰是資料量不足,還記得前一陣子中研院釋出的語言模型 CKIP-Llama-2-7b 有「傾中」的問題嗎?因為它使用了 2 個資料集是由簡轉繁的,以至於容易做出符合中國情境的回答。
廖教授用了很多公視的語料,但是欠缺夠多「會聽會寫」的人力將這些音檔文字化,所以目前模型的發音還是不太行。然而時間不等人,各個年齡層能嫻熟使用本土語言的比例是愈來愈低,因此 Tâi-gí 人在日常生活中「多講多寫」都會有幫助。#tâi-gí
https://seediqbale.xyz/files/81c2f6f8-2f79-46ab-a266-c106852048c0
https://seediqbale.xyz/files/905158aa-239a-4a63-8343-146ec75144fb
https://seediqbale.xyz/files/e3591f52-643d-4f8c-b4b2-b96c98bc36f9
https://seediqbale.xyz/files/512c0d2f-a74a-4345-bf6c-6dd37fd09eb2