語(yǔ)言差異成AI鴻溝?牛津新研究漢語(yǔ)訓(xùn)練費(fèi)用是英語(yǔ)2倍
- 來(lái)源:互聯(lián)網(wǎng)
- 作者:財(cái)聯(lián)社
- 編輯:陶笛
如今各大科技企業(yè)都在加速布局AI項(xiàng)目,不過(guò)也許世界各國(guó)的語(yǔ)言成為不小的障礙。
大型語(yǔ)言模型(LLM)可以理解世界上很多語(yǔ)言,甚至是一些記載較少的語(yǔ)言。不過(guò),大模型處理不同語(yǔ)言之間時(shí),其性能上存在很大的差異,這是由于模型成本與其所訓(xùn)練的語(yǔ)言緊密掛鉤。
牛津大學(xué)最近進(jìn)行的一項(xiàng)研究表明,從諸多語(yǔ)言模型的計(jì)費(fèi)方式看,英語(yǔ)的輸入和輸出比其他語(yǔ)言的輸入和輸出要便宜得多。例如,西班牙語(yǔ)的成本約為英語(yǔ)的1.5倍,簡(jiǎn)體中文的價(jià)格約為2倍以上,緬甸撣語(yǔ)在15倍以上。
成本差異主要是因數(shù)據(jù)標(biāo)記化所帶來(lái)的。標(biāo)記化就是將訓(xùn)練文本分解成更小的單元,這個(gè)更小的單元就是標(biāo)記(Token)。這是一個(gè)人工智能(AI)公司將用戶(hù)輸入轉(zhuǎn)換為計(jì)算成本的過(guò)程。
研究顯示,使用英語(yǔ)以外的語(yǔ)言訪(fǎng)問(wèn)和訓(xùn)練模型的成本都更高。例如中文,無(wú)論是在語(yǔ)法上還是在字符數(shù)量上,都有更復(fù)雜的結(jié)構(gòu),從而導(dǎo)致更高的標(biāo)記化(Token)率。
舉例來(lái)看,基于OpenAI公司的GPT2模型,對(duì)于“國(guó)家不同,所得稅的結(jié)構(gòu)是不同的,稅率和稅率等級(jí)也有很大的差異”這句話(huà)的處理來(lái)看,在簡(jiǎn)體中文處理中運(yùn)用到了66個(gè)Token,在英語(yǔ)處理中僅用到了24個(gè)Token,而在禪語(yǔ)處理中使用到了468個(gè)Token。
就每次輸出所需的費(fèi)用而言,漢語(yǔ)的成本是英語(yǔ)的兩倍。所以在AI相關(guān)的費(fèi)用中,英語(yǔ)的成本效益是最高的。
當(dāng)涉及到語(yǔ)言模型時(shí),設(shè)計(jì)者的主要目標(biāo)是實(shí)現(xiàn)低成本和高效功能之間的平衡。隨著AI領(lǐng)域的不斷發(fā)展,科技公司必須仔細(xì)考慮語(yǔ)言選擇對(duì)成本和可訪(fǎng)問(wèn)性的影響。
這種成本差異促使中國(guó)、印度等國(guó)家紛紛開(kāi)發(fā)自己的母語(yǔ)LLM項(xiàng)目。


-
傳奇歲月
-
原始傳奇
-
斗羅大陸(我唐三認(rèn)可0.1折)
-
妖神記之巔峰對(duì)決
-
無(wú)雙戰(zhàn)車(chē)(悟空沉默)
-
深淵契約
-
貓狩紀(jì)0.1折
-
靈劍仙師(斗破蒼穹)
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門(mén)評(píng)論
全部評(píng)論