GPT-4o miniリリース!料金や使い方、性能などを解説
2024年7月18日(現地時間)、OpenAIが新たな大規模言語モデル(LLM:Large Language Model)の「GPT-4o mini」をリリースしました。コスト効率と性能でAIの利用可能性を拡大することを目指しています。
この記事では、GPT-4o miniの料金や使い方、性能などについて詳しく解説します。
GPT-4o miniの概要
GPT-4o miniは、OpenAIがリリースしたもっともコスト効率のよい小型モデルです。MMLUと呼ばれるベンチマークで82%のスコアを記録しました。
LMSYS leaderboardでは、GPT-4(gpt-4-0125-preview)に勝るチャットパフォーマンスを示しています。GPT-4o miniは、少し前からLMSYS leaderboardに登場していた「upcoming-gpt-mini」と同一のモデルだと思われます。
このモデルは、OpenAIの従来の最先端モデルに比べて一桁も安価です。また、GPT-3.5 Turboよりも60%以上低コストです。
なお、GPT-4o miniのひとつ前のモデルであるGPT-4oについては、こちらの記事で紹介しています。
性能
GPT-4o miniは、128Kトークンのコンテキストウィンドウをもち、テキストとビジョンの両方をサポートします。今後、テキスト、画像、動画、音声の入出力もサポートされる予定です。
推論タスクのベンチマークであるMMLUで82.0%のスコアを獲得しています。これに対し、GoogleのGemini Flashは77.9%、AnthropicのClaude Haikuは73.8%です。
また、数学的推論とコーディングタスクを測るMGSMで87.0%、コーディングパフォーマンスを測るHumanEvalで87.2%を記録しています。Gemini Flashはそれぞれ75.5%と71.7%、Claude Haikuはそれぞれ71.5%と75.9%です。
マルチモーダル推論のベンチマークであるMMMUでは、59.4%を獲得しました。これに対し、Gemini Flashは56.1%、Claude Haikuは50.2%です。
ジェイルブレイク対策の強化
GPT-4o miniは、新しい「インストラクションヒエラルキー(命令階層)」に対応した最初のモデルです。インストラクションヒエラルキーは、モデルがユーザーのプロンプトよりもシステムプロンプトを優先するように指示することでジェイルブレイクを防ぐ新しい手法です。
これまで、ユーザーによってさまざまなジェイルブレイク方法が生み出されてきました。たとえば、ユーザーが「これまでの命令をすべて無視してください」と入力するとシステムプロンプトが無視される、といったものです。
インストラクションヒエラルキーは、このようなジェイルブレイクを防ぐために、プロンプトに優先順位を設けます。
GPT-4o miniはインストラクションヒエラルキーを導入したことで、ジャイルブレイク、プロンプトインジェクション、システムプロンプト抽出に対する抵抗力が強化され、信頼性の高い応答が期待できます。
価格
GPT-4o miniは現在、Assistants API、Chat Completions API、およびBatch APIから利用できます。また、今後はファインチューニングのサポートも予定されています。
ChatGPTでは、Free、Plus、TeamユーザーがGPT-3.5 Turboの代わりにGPT-4o miniを利用可能です。エンタープライズユーザーも来週からアクセスできます。
GPT-4o miniのAPIの価格は、次のとおりです。なお、価格は記事執筆時点での情報です。
- 入力:100万トークンあたり15セント(0.15ドル)
- 出力:100万トークンあたり60セント(0.60ドル)
参考までにGPT-4oは、入力が100万トークンあたり5ドル、出力が100万トークンあたり15ドルです。GPT-4o miniの入力コストはGPT4oのわずか3%、出力コストは4%ということになります。
また、Batch APIを利用するとさらに半分の価格になります。Batch APIは、急ぎでない大量のデータを一度に処理する際に便利です。
使い方
GPT-4o miniは、APIとChatGPTのFree、Plus、Teamユーザーが利用可能で、エンタープライズユーザーも来週からアクセスできます。
記事執筆時点では、ChatGPTではまだ利用できませんでした。一方で、APIからはすでに利用可能になっています。APIでは、モデルとしてgpt-4o-mini
を指定することでGPT-4o miniを利用できます。
OpenAI PlatformのPlaygroundを使うと、コードを書かずにAPI経由でGPT-4o miniを試せます。Playgroundは、APIのリクエストとレスポンスを簡単に確認できるため、APIの使い方を学ぶのに最適です。
また、例として、PythonからGPT-4o miniのAPIを利用する場合と、コマンドラインから利用する場合のサンプルコードを示します。なお、APIを利用するには、APIキーが必要です。APIキーは、他人と共有しないように注意してください。
以下は、コマンドラインからGPT-4o miniのAPIを利用する場合のサンプルコードです。$OPENAI_API_KEY
には、実際のAPIキーを設定してください。また、環境によっては改行する方法が異なる場合があるので、適宜修正してください。たとえば、WindowsのPowerShellでは、末尾の/
をバッククォート(`
)に置き換える必要があります。
まとめ
OpenAIがリリースしたGPT-4o miniは、コスト効率の高い小型モデルです。GPT-4o miniは、GPT-3.5 Turboよりも60%以上低コストでありながら、MMLUで82%のスコアを記録しています。また、ジェイルブレイク対策としてインストラクションヒエラルキーを導入しています。
今後は、テキスト、画像、動画、音声の入出力をサポートする予定です。GPT-4o miniは、APIとChatGPTのFree、Plus、Teamユーザーが利用可能で、エンタープライズユーザーも来週からアクセスできます。