您的位置: 首頁 > 新聞 > 智能家居 > 新聞詳情

語言差異成AI鴻溝?牛津新研究漢語訓練費用是英語2倍

時間:2023-07-31 16:57:24
  • 來源:互聯(lián)網(wǎng)
  • 作者:財聯(lián)社
  • 編輯:陶笛

如今各大科技企業(yè)都在加速布局AI項目,不過也許世界各國的語言成為不小的障礙。

大型語言模型(LLM)可以理解世界上很多語言,甚至是一些記載較少的語言。不過,大模型處理不同語言之間時,其性能上存在很大的差異,這是由于模型成本與其所訓練的語言緊密掛鉤。

語言差異成AI鴻溝?牛津新研究漢語訓練費用是英語2倍

牛津大學最近進行的一項研究表明,從諸多語言模型的計費方式看,英語的輸入和輸出比其他語言的輸入和輸出要便宜得多。例如,西班牙語的成本約為英語的1.5倍,簡體中文的價格約為2倍以上,緬甸撣語在15倍以上。

成本差異主要是因數(shù)據(jù)標記化所帶來的。標記化就是將訓練文本分解成更小的單元,這個更小的單元就是標記(Token)。這是一個人工智能(AI)公司將用戶輸入轉(zhuǎn)換為計算成本的過程。

研究顯示,使用英語以外的語言訪問和訓練模型的成本都更高。例如中文,無論是在語法上還是在字符數(shù)量上,都有更復雜的結(jié)構(gòu),從而導致更高的標記化(Token)率。

舉例來看,基于OpenAI公司的GPT2模型,對于“國家不同,所得稅的結(jié)構(gòu)是不同的,稅率和稅率等級也有很大的差異”這句話的處理來看,在簡體中文處理中運用到了66個Token,在英語處理中僅用到了24個Token,而在禪語處理中使用到了468個Token。

語言差異成AI鴻溝?牛津新研究漢語訓練費用是英語2倍

就每次輸出所需的費用而言,漢語的成本是英語的兩倍。所以在AI相關(guān)的費用中,英語的成本效益是最高的。

當涉及到語言模型時,設計者的主要目標是實現(xiàn)低成本和高效功能之間的平衡。隨著AI領(lǐng)域的不斷發(fā)展,科技公司必須仔細考慮語言選擇對成本和可訪問性的影響。

這種成本差異促使中國、印度等國家紛紛開發(fā)自己的母語LLM項目。

語言差異成AI鴻溝?牛津新研究漢語訓練費用是英語2倍

0

玩家點評 0人參與,0條評論)

收藏
違法和不良信息舉報
分享:

熱門評論

全部評論

他們都在說 再看看
3DM自運營游戲推薦 更多+