ChatGPT などの AI ツールの使用はますます一般的になってきています。 AI と対話する場合、入力プロンプトの単語の違いが出力結果に影響を与えることがわかっています。では、同じ意味のプロンプト単語が異なる言語で表現された場合、結果は大きく異なるのでしょうか?また、プロンプトワードの入出力はモデルの背後にある計算量に直結します。したがって、AI の出力とコスト消費に関して、異なる言語間に自然な違いや「不公平」はあるのでしょうか?この「不公平」はどのようにして生じるのでしょうか?
同時に、ChatGPTは中国語を含む複数の言語を認識できますが、トレーニングに使用されるデータセットは主に英語のテキストであり、英語以外の言語を処理する場合、言語構造や文法などの課題に直面する可能性があります。したがって、出力効果に影響します。最近の記事「多言語言語モデルは英語でのパフォーマンスが向上しますか?」 「Do Multilingual Language Models Think Better in English?」の論文では、英語以外の言語を英語に翻訳した場合、英語以外の言語をプロンプトワードとして直接使用した結果よりも出力結果が優れていると述べられています。
中国人ユーザーにとっては、まず中国語を英語に翻訳してからAIと対話する方が効果的で費用対効果が高いようです。結局のところ、OpenAI の GPT-4 モデル API を使用するには、1,000 トークンの入力ごとに少なくとも 0.03 ドルのコストがかかります。
中国の大型モデルは英国製よりも多くのお金を消費しますが、これは実際に AI の基本原理によって決定されるのでしょうか?
出典: 未来のテクノロジーの力
著者: 李新帥
ChatGPT などの AI ツールの使用はますます一般的になってきています。 AI と対話する場合、入力プロンプトの単語の違いが出力結果に影響を与えることがわかっています。では、同じ意味のプロンプト単語が異なる言語で表現された場合、結果は大きく異なるのでしょうか?また、プロンプトワードの入出力はモデルの背後にある計算量に直結します。したがって、AI の出力とコスト消費に関して、異なる言語間に自然な違いや「不公平」はあるのでしょうか?この「不公平」はどのようにして生じるのでしょうか?
ヒントの背後にあるものは、実際にはテキストではなくトークンであることがわかります。ユーザーが入力したプロンプト単語を受信した後、モデルはその入力を処理と予測のためにトークン リストに変換し、予測されたトークンを出力に表示される単語に変換します。つまり、トークンは言語モデルの処理とテキストまたはコードの生成の基本単位です。さまざまなメーカーが、サポートされている単語や漢字の数ではなく、モデルがサポートするトークン コンテキストの数を宣言していることがわかります。
トークンの計算に影響を与える要因
まず、トークンは英単語や漢字に対応するものではなく、トークンと単語の間には特別な変換関係はありません。たとえば、OpenAI がリリースしたトークン計算ツールによると、ハンバーガーという単語はハム、バール、ゲルの合計 3 つのトークンに分解されます。また、同じ単語が 2 つの文で構造が異なる場合は、異なるトークン数として記録されます。
特定のトークンの計算方法は、主にメーカーが使用するトークン化方法によって異なります。トークン化は、入力テキストと出力テキストを言語モデルで処理できるトークンに分割するプロセスです。このプロセスは、モデルがさまざまな言語、語彙、形式を処理するのに役立ちます。 ChatGPT の背後には、「バイト ペア エンコーディング」(BPE) と呼ばれるトークン化方法があります。
現時点では、単語が分解されるトークンの数は、文内のその発音と構造に関連しています。そして異なる言語間の計算の差は大きいようです。
「ハンバーガー」に相当する中国語の「ハンバーガー」を例にとると、この 3 つの漢字は 8 トークンとしてカウントされ、8 つの部分に分解されます。
別の段落で、中国語と英語のトークン計算の「不公平さ」を比較してみましょう。
以下は OpenAI 公式 Web サイトからの文です: 以下のツールを使用して、テキストの一部が API によってどのようにトークン化されるか、およびそのテキスト内のトークンの総数を理解できます。この文には合計 33 があります。トークン。
対応する中国語は次のとおりです。 以下のツールを使用すると、API がテキストをどのようにトークン化するか、およびテキスト内のトークンの総数を理解できます。合計76枚のトークン。
中国語と英語は AI 上では当然「不公平」
同じ意味を持つ中国語のトークンの数が英語の 2 倍以上であることがわかります。訓練や推論における中国語と英語の「不公平」は、中国語の 1 つの単語が通常複数の意味を表すことができ、言語構成が比較的柔軟であるという事実によるものかもしれません。また、中国語には深い文化的含意と豊富な文脈上の意味もあります。非常に重要です。言語のあいまいさと処理の難しさが大幅に増加します。英語は比較的単純な文法構造を持っているため、一部の自然言語タスクでは英語の処理と理解が中国語よりも容易になります。
中国語ではより多くのトークンを処理する必要があり、モデルはより多くのメモリとコンピューティング リソースを消費し、当然コストも増加します。
同時に、ChatGPTは中国語を含む複数の言語を認識できますが、トレーニングに使用されるデータセットは主に英語のテキストであり、英語以外の言語を処理する場合、言語構造や文法などの課題に直面する可能性があります。したがって、出力効果に影響します。最近の記事「多言語言語モデルは英語でのパフォーマンスが向上しますか?」 「Do Multilingual Language Models Think Better in English?」の論文では、英語以外の言語を英語に翻訳した場合、英語以外の言語をプロンプトワードとして直接使用した結果よりも出力結果が優れていると述べられています。
中国人ユーザーにとっては、まず中国語を英語に翻訳してからAIと対話する方が効果的で費用対効果が高いようです。結局のところ、OpenAI の GPT-4 モデル API を使用するには、1,000 トークンの入力ごとに少なくとも 0.03 ドルのコストがかかります。
中国語は複雑であるため、AI モデルは、正確なトレーニングと推論に中国語データを使用する際に課題に直面する可能性があり、中国語モデルの適用と維持がより困難になる可能性があります。同時に、大型モデルを開発する企業にとって、中国の大型モデルの製造には追加のリソースが必要となるため、より大きなコストを負担しなければならない可能性があります。