出典: イファン著者:モ・チョンユ最近、X (元 Twitter) ユーザー @Dylan Patel がオックスフォード大学の研究結果を示しました。GPT-4 と他のほとんどの一般的な LLM の言語を研究することにより、LLM (大規模言語モデル) 推論のコストが大きく異なることが研究でわかりました。大きい。中でも英語のインプットとアウトプットは他の言語に比べて格段に安く、簡体字中国語は英語の約2倍、スペイン語は英語の1.5倍、ビルマシャン語は英語の15倍となっています。 。この原理は、オックスフォード大学が今年 5 月に arXiv で公開した論文にまで遡ることができます。 字句解析は、自然言語テキストを一連のトークンに変換するプロセスであり、言語モデルのテキスト処理の最初のステップです。 LLM の計算能力コストの計算では、トークンの数が増えるほど、計算能力のコストも高くなります。現在の AI サービスの多くは、処理する必要がある単語の数に応じて料金が請求されます。論文によると、研究者らは17の見出し語化手法を分析した結果、同じテキストが長さが大きく異なる異なる言語の見出し語列に変換されることを発見し、複数の言語をサポートすると主張する見出し語化手法ですら、完全に公平な長さを達成することはできません。たとえば、OpenAI の GPT3 トークナイザーによると、「your love」をトークン化する場合、英語では 2 つのトークンだけが必要ですが、簡体字中国語では 8 つのトークンが必要です。簡体字中国語のテキストは 4 文字しかなく、英語のテキストは 14 文字あります。 X ユーザーの @Dylan Patel が公開した写真からは、LLM が英語の文を処理するには 17 トークン (トークン) が必要で、LLM がビルマ語の文を処理するには 198 トークン (トークン) が必要であることも直感的にわかります。同じ意味。これは、ビルマ語の処理に英語よりも 11 倍のコストがかかることを意味します。同様の状況は数多くあります。Aleksandar Petrov の Web サイトには、関連するアイコンやデータが数多く掲載されています。興味のある友人は、[Enter] をクリックして言語間の違いを確認してください。OpenAI の公式 Web サイトにも同様のページがあり、API がテキストの一部を見出し語化し、テキスト内のトークンの総数を表示する方法が説明されています。公式ウェブサイトには、補題は通常英語のテキストの約 4 文字に対応し、補題 100 個は約 75 単語に相当するとも記載されています。 英語の語彙列の長さが短いため、英語は生成人工知能の事前トレーニングの費用対効果において最大の勝者であり、他の言語ユーザーを大きく引き離し、間接的に不公平な状況を作り出しています。とりわけ、このトークン シーケンスの長さの違いは、不公平な処理遅延 (一部の言語では同じコンテンツの処理により長い時間がかかる) や、長いシーケンスの依存関係の不公平なモデリング (一部の言語は短いテキストしか処理できない) につながる可能性があります。簡単に言えば、特定の言語のユーザーは、より高いコストを支払う必要があり、遅延が大きくなり、パフォーマンスも低下するため、言語テクノロジーの機会への公平なアクセスが減り、間接的に英語を話すユーザーと AI が英語を話すユーザーとの間でフォームを分割することにつながります。世界のその他の言語の使用状況。出力コストだけで見ると、簡体字中国語のコストは英語の 2 倍です。 AI分野の発展が進む中、常に「あと一歩」の簡体字中国語は明らかに不親切です。コストなどの重なり合う要因のバランスの下で、非英語圏諸国も独自の母国語モデルを開発しようとしています。 中国を例に挙げると、AI を最初に研究した国内大手企業の 1 つとして、Baidu は 2023 年 3 月 20 日に生成 AI Wenxin Yiyan を正式に開始しました。その後、アリババの同義前文大型モデルやファーウェイの盤古大型モデルなど、優れた大型モデルが次々と登場した。その中で、ファーウェイのPanguラージモデルのNLPラージモデルは、1,100億の高密度パラメータを持ち、40TBの膨大なデータでトレーニングされた業界初の1,000億パラメータの中国製ラージモデルです。国連のアミナ・モハメッド副事務総長がかつて国連総会で警告したように、もし国際社会が断固として行動しなければ、デジタル格差は「不平等の新たな側面」となるだろう。同様に、生成型 AI の急速な発展に伴い、AI ギャップは注目に値する新たな「新たな不平等の側面」となる可能性があります。幸いなことに、通常は「嫌悪感を抱いている」国内のテクノロジー大手はすでに行動を起こしています。
AIモデルの不平等:中国語のトレーニング費用は英語の2倍!
出典: イファン
著者:モ・チョンユ
最近、X (元 Twitter) ユーザー @Dylan Patel がオックスフォード大学の研究結果を示しました。GPT-4 と他のほとんどの一般的な LLM の言語を研究することにより、LLM (大規模言語モデル) 推論のコストが大きく異なることが研究でわかりました。大きい。
中でも英語のインプットとアウトプットは他の言語に比べて格段に安く、簡体字中国語は英語の約2倍、スペイン語は英語の1.5倍、ビルマシャン語は英語の15倍となっています。 。
この原理は、オックスフォード大学が今年 5 月に arXiv で公開した論文にまで遡ることができます。
現在の AI サービスの多くは、処理する必要がある単語の数に応じて料金が請求されます。
論文によると、研究者らは17の見出し語化手法を分析した結果、同じテキストが長さが大きく異なる異なる言語の見出し語列に変換されることを発見し、複数の言語をサポートすると主張する見出し語化手法ですら、完全に公平な長さを達成することはできません。
たとえば、OpenAI の GPT3 トークナイザーによると、「your love」をトークン化する場合、英語では 2 つのトークンだけが必要ですが、簡体字中国語では 8 つのトークンが必要です。簡体字中国語のテキストは 4 文字しかなく、英語のテキストは 14 文字あります。
同様の状況は数多くあります。Aleksandar Petrov の Web サイトには、関連するアイコンやデータが数多く掲載されています。興味のある友人は、[Enter] をクリックして言語間の違いを確認してください。
OpenAI の公式 Web サイトにも同様のページがあり、API がテキストの一部を見出し語化し、テキスト内のトークンの総数を表示する方法が説明されています。公式ウェブサイトには、補題は通常英語のテキストの約 4 文字に対応し、補題 100 個は約 75 単語に相当するとも記載されています。
とりわけ、このトークン シーケンスの長さの違いは、不公平な処理遅延 (一部の言語では同じコンテンツの処理により長い時間がかかる) や、長いシーケンスの依存関係の不公平なモデリング (一部の言語は短いテキストしか処理できない) につながる可能性があります。
簡単に言えば、特定の言語のユーザーは、より高いコストを支払う必要があり、遅延が大きくなり、パフォーマンスも低下するため、言語テクノロジーの機会への公平なアクセスが減り、間接的に英語を話すユーザーと AI が英語を話すユーザーとの間でフォームを分割することにつながります。世界のその他の言語の使用状況。
出力コストだけで見ると、簡体字中国語のコストは英語の 2 倍です。 AI分野の発展が進む中、常に「あと一歩」の簡体字中国語は明らかに不親切です。コストなどの重なり合う要因のバランスの下で、非英語圏諸国も独自の母国語モデルを開発しようとしています。
その後、アリババの同義前文大型モデルやファーウェイの盤古大型モデルなど、優れた大型モデルが次々と登場した。
その中で、ファーウェイのPanguラージモデルのNLPラージモデルは、1,100億の高密度パラメータを持ち、40TBの膨大なデータでトレーニングされた業界初の1,000億パラメータの中国製ラージモデルです。
国連のアミナ・モハメッド副事務総長がかつて国連総会で警告したように、もし国際社会が断固として行動しなければ、デジタル格差は「不平等の新たな側面」となるだろう。
同様に、生成型 AI の急速な発展に伴い、AI ギャップは注目に値する新たな「新たな不平等の側面」となる可能性があります。
幸いなことに、通常は「嫌悪感を抱いている」国内のテクノロジー大手はすでに行動を起こしています。