突如現れた高性能LLM「gpt2-chatbot」の謎に迫る
大規模言語モデル(LLM)のベンチマークプラットフォームのLMSYS Chatbot Arena上に、突如として「gpt2-chatbot」というLLMが現れました。その名前と裏腹に、最新のLLMと張り合う性能が話題を呼んでいます。しかし、その詳細は謎に包まれており、さまざまな噂がささやかれています。
この記事では、gpt2-chatbotについて、現時点でわかっている情報を深掘りしていきます。
LMSYS Chatbot Arenaとは?
LMSYS Chatbot Arenaは、さまざまな開発元から提供されるLLM(Large Language Models) の性能を比較検証するためのプラットフォームです。プロンプトを入力すると、ランダムに選択された2つのモデルが生成した回答が表示されます。ユーザーはそれらの回答を見比べ、どちらが優れているかを投票するという仕組みです。
このプラットフォームの最大の特徴は、ブラインドテスト方式を採用している点です。いずれのLLMの名前も開示されず、純粋に出力内容のみで判断されるため、先入観なくモデルの品質を評価できます。2つのモデルの出力のどちらが優れているかを回答すると、モデル名が開示されます。
謎のLLM「gpt2-chatbot」の登場
LMSYS Chatbot Arenaに突如として登場したgpt2-chatbotは、他の多くのLLMと比較して非常に優れた性能を見せています。とくに文脈の理解や回答の正確性が高いうえに、他のLLMには解けない論理的な問題に解答できます。
gpt2-chatbotは、2019年に発表されたGPT-2を彷彿とさせる名前でありながら、その性能は天と地ほどの差があります。中には、OpenAIの最新モデル「GPT-4」と同等か、あるいはそれ以上の性能ではないかとする声も上がっています。
実際の出力
gpt2-chatbotの実際の出力例です。他のLLMとの出力の比較は、私のTwitterのスレッドを参照してください。なお、記事執筆時点では、gpt2-chatbotは利用できなくなっています。
gpt2-chatbotの正体は?OpenAIとの関連性
gpt2-chatbotは名前以外の情報が明かされておらず、その正体は謎に包まれています。
gpt2-chatbotが話題になった直後、OpenAIのCEOのサム・アルトマン氏は、自身のX(旧Twitter)で、「i do have a soft spot for gpt2(gpt2には愛着があるんだ)」と発言しました。サム・アルトマン氏は、当初は「i do have a soft spot for gpt-2」(『gpt2』ではなく『gpt-2になっている』)と投稿していましたが、すぐに「gpt2」に修正しました。このことから、gpt2-chatbotを意識しての発言とみられます。
gpt2-chatbotの性能とサム・アルトマン氏の発言から、同モデルはOpenAIで開発中のGPT-4.5やGPT-5のテストではないかとする噂も広がっています。
i do have a soft spot for gpt2
— Sam Altman (@sama) April 30, 2024
技術革新の可能性
もしgpt2-chatbotが名前通り従来のGPT-2ベースのモデルだった場合、パラメータ数に対する性能の大幅な進化が示され、これが実現すれば、LLMの低コスト化や効率的な運用が可能になると考えられます。
スマートフォンを含む各種端末のオンデバイスでの利用が現実的になることで、さらに幅広い用途にLLMを利用できるようになるでしょう。とくに企業や自治体では、個人情報や機密情報の保護の観点から、サードパーティ企業が提供するLLM(通常は提供元のサーバーにデータが送信される)への情報の入力に抵抗感があります。オンデバイスで高品質なLLMを利用できるようになれば、こうした場面での活用が進むと考えられます。また、通常のLLMは提供元によって入出力に「規制」をされる場合がありますが、ローカルで動作するLLMであればその懸念を軽減できるため、表現の自由の観点からも重要です。
ただし、gpt2-chatbotがGPT-2ベースかは不明ですし、仮にGPT-2ベースでもその仕組みやモデルの重み(モデル本体のデータ)が公開されるかは分からない点に注意が必要です。
まとめ
gpt2-chatbotは、突如としてLMSYS Chatbot Arenaに登場し、その高性能が話題となっています。その正体は謎に包まれており、OpenAIとの関連性を巡る憶測も広がっています。gpt2-chatbotがGPT-2ベースのモデルであれば、LLMの低コスト化やオンデバイスでの利用が可能になる可能性があります。今後の情報公開に期待しましょう。