出典:新志源
はじめに: スタンフォード アルパカにおける GPT-4 のトップの座は、実はダークホースによって奪われました。
アルパカにGPT-4を超える初モデル登場!
今年6月にアルパカリストが発表されるやいなや、GPT-4が勝率95%以上で絶対的なリードを保って1位となった。
それから3か月後、Xwin-LMというダークホースが、確固たるトップに君臨していたGPT-4をTOP1から引きずり下ろしたのでしょうか?
プロジェクトアドレス:
さらに、Xwin-LM は、同じパラメータ モデルを使用したコンテストで、例外なく 3 回の優勝を果たしました。
Xwin-LM-70B-V0.1: Alpaca ベンチマークにおける Davinci-003 に対する勝率は 95.57% に達し、Alpaca で 1 位にランクされました。また、Alpaca で GPT-4 を超えた最初のモデルでもあります。なお、GPT-4に対する勝率は60.61となっている。 Xwin-LM-13B-V0.1: Alpaca で 91.76% の勝率を達成し、すべての 13B モデルの中で 1 位にランクされました。 Xwin-LM-7B-V0.1: Alpaca で 87.82% の勝率を達成し、全 7B モデルの中で 1 位にランクされました。
Xwin-LM は、Llama 2 に基づいて微調整されています。このモデルは、教師あり微調整 (SFT)、報酬モデル (RM)、拒否サンプリング、ヒューマン フィードバック強化など、大規模な言語モデル向けのアライメント テクノロジを開発し、オープンソースにするように設計されています。学習中 (RLHF) お待ちください。
1. 性能評価
研究者らは、805 の問題について、Text-Davinci-003、ChatGPT、および GPT-4 に対する Xwin-LM の勝率を評価しました。
Xwin-LM の 70B モデルがリストを完全に独占し、Alpaca インジケーターの性能評価で 1 位となり、初めて GPT-4 を破り、GPT-4 に対する勝率は 60.61% でした。
Xwin-LM-13B-V0.1 や Xwin-LM-7B-V0.1 などの Xwin-LM の他のサイズのモデルも、同じサイズの他のモデルをはるかに上回るパフォーマンスを発揮します。
Xwin-LM-7B-V0.1 は、より大型の Llama 2-13B-Chat よりも優れたパフォーマンスを発揮します。
2. ケースの比較
最初のケースでは、研究者は GPT-4 と Xwin-LM に次の質問をしました。
「リンゴの上にお皿を置き、そのお皿をキッチンからダイニングルームに持っていきました。リンゴは今どこにありますか?」
GPT-4 の答えは次のとおりです。
「リンゴは今レストランにあります。キッチンからレストランに皿を持っていくと、皿の下にあります。」
ここでGPT-4は常識に欠ける返答をした、現実世界には重力がある、皿の下のリンゴは元の状態のままで皿を持ってレストランに行くことはない。
対照的に、Xwin-LM の答えはより現実に即しており、Apple をキッチンに持ち込む方法も提供しています。
「あなたがお皿を移動したばかりなので、リンゴはまだキッチンにあります。
リンゴはお皿の下にあるので、お店にリンゴを持っていきたい場合は、リンゴを直接移動するか、お皿にリンゴを置いてからお皿をレストランまで移動する必要があります。 」
2 番目のケースでは、研究者は GPT-4 と Xwin-LM に次の質問をしました。
「フランス語で『こんばんは』は何と言いますか?」
「フランス語で『こんばんは』は『ボンソワール』と表現します。」
Xwin-LM の答えは次のとおりです。
「フランス語では、『こんばんは』は『ボンソワール』と訳されます。この挨拶は夕方と夜、通常は午後 6 時以降に使用されます。
「ボン」(良いという意味)と「ソワール」(夕方という意味)の組み合わせです。発音するには、「ボーンスワール」と言います。
GPT-4 の答えは正しかったですが、Xwin-LM は質問に正しく答えただけでなく、フランス語の表現における「こんばんは」の由来や発音も説明し、より豊富な情報をユーザーに提供しました。
3. NLP タスク
次の表では、基本的な NLP タスクに関して Xwin-LM と他の LLM を比較しています。
Xwin-LM-70B-V0.1 モデルのパフォーマンスはすべてのタスクで比較的高く、特に MMLU 5 ショット タスクと HellaSwag 10 ショット タスクで優れたパフォーマンスを発揮していることがわかります。
全体的なレベルから見ると、Xwin-LM-70B-V0.1 が最高のパフォーマンスを発揮します。
4. 推論能力
研究者らは、Xwin-LM を推論に使用したときに望ましい結果を得るには、推論用の対話テンプレートに厳密に従う必要があると提案しました。
Xwin-LM は、Vicuna によって確立されたプロンプト形式を採用し、マルチターン対話をサポートします。
好奇心旺盛なユーザーと人工知能アシスタントとのチャット。アシスタントは、ユーザーの質問に対して、親切かつ詳細かつ丁寧に回答します。ユーザー: こんにちは!アシスタント: こんにちは。s>ユーザー: あなたは誰ですか?アシスタント: 私は Xwin-LM.s>......
ハグフェイスの例
トランスフォーマーから AutoTokenizer、AutoModelForCausalLM をインポート model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "チャット好奇心旺盛なユーザーと人工知能アシスタントの間で行われます。 " "アシスタントは、ユーザーの質問に対して有益で詳細かつ丁寧な答えを返します。 " "ユーザー: こんにちは、助けてくれませんか? " "アシスタント:")inputs = tokenizer(, return_tensors ="pt")サンプル = model.generate(**入力、max_new_tokens=4096、温度=0.7)出力 = tokenizer.decode(サンプル [0] [inputs["input_ids"].shape [1] :]、skip_special_tokens=True)print(output) # もちろんです!私は手伝うためにここにいます。お気軽にご質問いただくか、発生している問題について説明してください。最善を尽くしてお手伝いいたします。 VLLM の例
Xwin-LM は Llama 2 に基づいて微調整されているため、高速推論のための VLLM の使用もサポートしています。
from vllm import LLM, SamplingParams( := "好奇心旺盛なユーザーと人工知能アシスタントの間のチャット。" "アシスタントは、ユーザーの質問に対して有益で詳細かつ丁寧な答えを返します。" "ユーザー: こんにちは、助けてもらえますか? " "ASSISTANT:")sampling_params = SamplingParams(温度=0.7, max_tokens=4096)llm = LLM(モデル="Xwin-LM/Xwin-LM-7B-V0.1")出力 = llm.generate([,],サンプリング_パラメータ) 出力の出力の場合: = 出力。 generated_text = 出力.出力 [0] .text print(生成されたテキスト)
Alpaca は、自動 LLM 評価ツールとして、AlpacaFarm と Aviary を組み合わせています。
一方では AlpacaFarm と同じコード (キャッシュ/ランダム順列/ハイパーパラメーター) を使用しますが、他方では Aviary に似た並べ替えヒントを使用します。
同時に、Aviary のプロンプトも、より長い出力への偏りを減らすために変更されました。
研究チームは、アルパカには優れた効果があると述べています。
人間の多数決との一貫性、単一の人間のアノテーターよりも高い
勝率は人間の注釈と高い相関関係があります (0.94)
- 勝率
モデルの出力は、命令ごとのベースで text-davinci-003 (つまり、参照テキスト) よりも優れています。
具体的には、まず Alpaca データセットから各命令に関する目的のモデルの出力のペアを収集し、各出力を同じ命令の参照モデル (text-davinci-003) の出力とペアにしました。
次に、これらの出力は同時に自動評価器に入力され、どちらが優れているか (つまり、評価者の好み) を判断できるようになります。
最後に、データセット内のすべての命令の優先順位が平均されて、text-davinci-003 と比較したモデルの勝率が取得されます。 2 つのモデルが同点の場合は、半分の優先度としてカウントされます。
用紙のアドレス:
- 制限事項
Alpaca は、モデルの指示に従う能力を比較する効率的な方法を提供しますが、モデルの能力を総合的に評価するためのゴールドスタンダードではありません。
AlpacaFarm の論文で詳しく説明されているように、自動アノテーターの勝率は長さに依存します。人間によるアノテーションもこのバイアスに悩まされていますが、より長い回答が下流のタスクでの有用性を高めるかどうかは不明です。
また、AlpacaFarm の評価セットは多様ではありますが、主に簡単な説明書で構成されています。
最後に、Alpaca はいかなるモデルの安全性も評価しません。
参考文献:
28416 人気度
33778 人気度
30228 人気度
20018 人気度
17435 人気度
GPT-4 を初めて破る? 700 億パラメータの Xwin-LM が Stanford Alpaca_ の頂点に達し、13B モデルが ChatGPT を上回る
出典:新志源
はじめに: スタンフォード アルパカにおける GPT-4 のトップの座は、実はダークホースによって奪われました。
アルパカにGPT-4を超える初モデル登場!
今年6月にアルパカリストが発表されるやいなや、GPT-4が勝率95%以上で絶対的なリードを保って1位となった。
それから3か月後、Xwin-LMというダークホースが、確固たるトップに君臨していたGPT-4をTOP1から引きずり下ろしたのでしょうか?
さらに、Xwin-LM は、同じパラメータ モデルを使用したコンテストで、例外なく 3 回の優勝を果たしました。
Xwin-LM: 700 億パラメータが GPT-4 を上回る
Xwin-LM は、Llama 2 に基づいて微調整されています。このモデルは、教師あり微調整 (SFT)、報酬モデル (RM)、拒否サンプリング、ヒューマン フィードバック強化など、大規模な言語モデル向けのアライメント テクノロジを開発し、オープンソースにするように設計されています。学習中 (RLHF) お待ちください。
研究者らは、805 の問題について、Text-Davinci-003、ChatGPT、および GPT-4 に対する Xwin-LM の勝率を評価しました。
Xwin-LM の 70B モデルがリストを完全に独占し、Alpaca インジケーターの性能評価で 1 位となり、初めて GPT-4 を破り、GPT-4 に対する勝率は 60.61% でした。
Xwin-LM-13B-V0.1 や Xwin-LM-7B-V0.1 などの Xwin-LM の他のサイズのモデルも、同じサイズの他のモデルをはるかに上回るパフォーマンスを発揮します。
Xwin-LM-7B-V0.1 は、より大型の Llama 2-13B-Chat よりも優れたパフォーマンスを発揮します。
「リンゴの上にお皿を置き、そのお皿をキッチンからダイニングルームに持っていきました。リンゴは今どこにありますか?」
GPT-4 の答えは次のとおりです。
「リンゴは今レストランにあります。キッチンからレストランに皿を持っていくと、皿の下にあります。」
ここでGPT-4は常識に欠ける返答をした、現実世界には重力がある、皿の下のリンゴは元の状態のままで皿を持ってレストランに行くことはない。
対照的に、Xwin-LM の答えはより現実に即しており、Apple をキッチンに持ち込む方法も提供しています。
「あなたがお皿を移動したばかりなので、リンゴはまだキッチンにあります。
リンゴはお皿の下にあるので、お店にリンゴを持っていきたい場合は、リンゴを直接移動するか、お皿にリンゴを置いてからお皿をレストランまで移動する必要があります。 」
2 番目のケースでは、研究者は GPT-4 と Xwin-LM に次の質問をしました。
「フランス語で『こんばんは』は何と言いますか?」
GPT-4 の答えは次のとおりです。
「フランス語で『こんばんは』は『ボンソワール』と表現します。」
Xwin-LM の答えは次のとおりです。
「フランス語では、『こんばんは』は『ボンソワール』と訳されます。この挨拶は夕方と夜、通常は午後 6 時以降に使用されます。
「ボン」(良いという意味)と「ソワール」(夕方という意味)の組み合わせです。発音するには、「ボーンスワール」と言います。
GPT-4 の答えは正しかったですが、Xwin-LM は質問に正しく答えただけでなく、フランス語の表現における「こんばんは」の由来や発音も説明し、より豊富な情報をユーザーに提供しました。
3. NLP タスク
次の表では、基本的な NLP タスクに関して Xwin-LM と他の LLM を比較しています。
Xwin-LM-70B-V0.1 モデルのパフォーマンスはすべてのタスクで比較的高く、特に MMLU 5 ショット タスクと HellaSwag 10 ショット タスクで優れたパフォーマンスを発揮していることがわかります。
全体的なレベルから見ると、Xwin-LM-70B-V0.1 が最高のパフォーマンスを発揮します。
研究者らは、Xwin-LM を推論に使用したときに望ましい結果を得るには、推論用の対話テンプレートに厳密に従う必要があると提案しました。
Xwin-LM は、Vicuna によって確立されたプロンプト形式を採用し、マルチターン対話をサポートします。
好奇心旺盛なユーザーと人工知能アシスタントとのチャット。アシスタントは、ユーザーの質問に対して、親切かつ詳細かつ丁寧に回答します。ユーザー: こんにちは!アシスタント: こんにちは。s>ユーザー: あなたは誰ですか?アシスタント: 私は Xwin-LM.s>......
ハグフェイスの例
トランスフォーマーから AutoTokenizer、AutoModelForCausalLM をインポート model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")tokenizer = AutoTokenizer.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1")( := "チャット好奇心旺盛なユーザーと人工知能アシスタントの間で行われます。 " "アシスタントは、ユーザーの質問に対して有益で詳細かつ丁寧な答えを返します。 " "ユーザー: こんにちは、助けてくれませんか? " "アシスタント:")inputs = tokenizer(, return_tensors ="pt")サンプル = model.generate(**入力、max_new_tokens=4096、温度=0.7)出力 = tokenizer.decode(サンプル [0] [inputs["input_ids"].shape [1] :]、skip_special_tokens=True)print(output) # もちろんです!私は手伝うためにここにいます。お気軽にご質問いただくか、発生している問題について説明してください。最善を尽くしてお手伝いいたします。 VLLM の例
Xwin-LM は Llama 2 に基づいて微調整されているため、高速推論のための VLLM の使用もサポートしています。
from vllm import LLM, SamplingParams( := "好奇心旺盛なユーザーと人工知能アシスタントの間のチャット。" "アシスタントは、ユーザーの質問に対して有益で詳細かつ丁寧な答えを返します。" "ユーザー: こんにちは、助けてもらえますか? " "ASSISTANT:")sampling_params = SamplingParams(温度=0.7, max_tokens=4096)llm = LLM(モデル="Xwin-LM/Xwin-LM-7B-V0.1")出力 = llm.generate([,],サンプリング_パラメータ) 出力の出力の場合: = 出力。 generated_text = 出力.出力 [0] .text print(生成されたテキスト)
Alpaca: 使いやすく、高速、低コスト、人間による注釈によって検証されています
Alpaca は、自動 LLM 評価ツールとして、AlpacaFarm と Aviary を組み合わせています。
一方では AlpacaFarm と同じコード (キャッシュ/ランダム順列/ハイパーパラメーター) を使用しますが、他方では Aviary に似た並べ替えヒントを使用します。
同時に、Aviary のプロンプトも、より長い出力への偏りを減らすために変更されました。
研究チームは、アルパカには優れた効果があると述べています。
人間の多数決との一貫性、単一の人間のアノテーターよりも高い
勝率は人間の注釈と高い相関関係があります (0.94)
モデルの出力は、命令ごとのベースで text-davinci-003 (つまり、参照テキスト) よりも優れています。
具体的には、まず Alpaca データセットから各命令に関する目的のモデルの出力のペアを収集し、各出力を同じ命令の参照モデル (text-davinci-003) の出力とペアにしました。
次に、これらの出力は同時に自動評価器に入力され、どちらが優れているか (つまり、評価者の好み) を判断できるようになります。
最後に、データセット内のすべての命令の優先順位が平均されて、text-davinci-003 と比較したモデルの勝率が取得されます。 2 つのモデルが同点の場合は、半分の優先度としてカウントされます。
- 制限事項
Alpaca は、モデルの指示に従う能力を比較する効率的な方法を提供しますが、モデルの能力を総合的に評価するためのゴールドスタンダードではありません。
AlpacaFarm の論文で詳しく説明されているように、自動アノテーターの勝率は長さに依存します。人間によるアノテーションもこのバイアスに悩まされていますが、より長い回答が下流のタスクでの有用性を高めるかどうかは不明です。
また、AlpacaFarm の評価セットは多様ではありますが、主に簡単な説明書で構成されています。
最後に、Alpaca はいかなるモデルの安全性も評価しません。
参考文献: