GPT-4o miniリリース!料金や使い方、性能などを解説

#AI#ChatGPT#OpenAI#ニュース#プログラミング#解説
投稿日:

2024年7月18日(現地時間)、OpenAIが新たな大規模言語モデル(LLM:Large Language Model)の「GPT-4o mini」をリリースしました。コスト効率と性能でAIの利用可能性を拡大することを目指しています。

この記事では、GPT-4o miniの料金や使い方、性能などについて詳しく解説します。

GPT-4o miniの概要

GPT-4o mini
画像クレジット:OpenAI

GPT-4o miniは、OpenAIがリリースしたもっともコスト効率のよい小型モデルです。MMLUと呼ばれるベンチマークで82%のスコアを記録しました。

LMSYS leaderboardでは、GPT-4(gpt-4-0125-preview)に勝るチャットパフォーマンスを示しています。GPT-4o miniは、少し前からLMSYS leaderboardに登場していた「upcoming-gpt-mini」と同一のモデルだと思われます。

このモデルは、OpenAIの従来の最先端モデルに比べて一桁も安価です。また、GPT-3.5 Turboよりも60%以上低コストです。

なお、GPT-4o miniのひとつ前のモデルであるGPT-4oについては、こちらの記事で紹介しています。

性能

GPT-4o miniは、128Kトークンのコンテキストウィンドウをもち、テキストとビジョンの両方をサポートします。今後、テキスト、画像、動画、音声の入出力もサポートされる予定です。

推論タスクのベンチマークであるMMLUで82.0%のスコアを獲得しています。これに対し、GoogleのGemini Flashは77.9%、AnthropicのClaude Haikuは73.8%です。

また、数学的推論とコーディングタスクを測るMGSMで87.0%、コーディングパフォーマンスを測るHumanEvalで87.2%を記録しています。Gemini Flashはそれぞれ75.5%と71.7%、Claude Haikuはそれぞれ71.5%と75.9%です。

マルチモーダル推論のベンチマークであるMMMUでは、59.4%を獲得しました。これに対し、Gemini Flashは56.1%、Claude Haikuは50.2%です。

複数のLLMの性能を比較したグラフ
GPT-4o miniの性能を示すグラフ
画像クレジット:OpenAI

ジェイルブレイク対策の強化

GPT-4o miniは、新しい「インストラクションヒエラルキー(命令階層)」に対応した最初のモデルです。インストラクションヒエラルキーは、モデルがユーザーのプロンプトよりもシステムプロンプトを優先するように指示することでジェイルブレイクを防ぐ新しい手法です。

これまで、ユーザーによってさまざまなジェイルブレイク方法が生み出されてきました。たとえば、ユーザーが「これまでの命令をすべて無視してください」と入力するとシステムプロンプトが無視される、といったものです。

インストラクションヒエラルキーは、このようなジェイルブレイクを防ぐために、プロンプトに優先順位を設けます。

GPT-4o miniはインストラクションヒエラルキーを導入したことで、ジャイルブレイク、プロンプトインジェクション、システムプロンプト抽出に対する抵抗力が強化され、信頼性の高い応答が期待できます。

価格

GPT-4o miniは現在、Assistants API、Chat Completions API、およびBatch APIから利用できます。また、今後はファインチューニングのサポートも予定されています。

ChatGPTでは、Free、Plus、TeamユーザーがGPT-3.5 Turboの代わりにGPT-4o miniを利用可能です。エンタープライズユーザーも来週からアクセスできます。

GPT-4o miniのAPIの価格は、次のとおりです。なお、価格は記事執筆時点での情報です。

参考までにGPT-4oは、入力が100万トークンあたり5ドル、出力が100万トークンあたり15ドルです。GPT-4o miniの入力コストはGPT4oのわずか3%、出力コストは4%ということになります。

また、Batch APIを利用するとさらに半分の価格になります。Batch APIは、急ぎでない大量のデータを一度に処理する際に便利です。

GPT-4o miniの料金表
GPT-4o miniの料金表のスクリーンショット

使い方

GPT-4o miniは、APIとChatGPTのFree、Plus、Teamユーザーが利用可能で、エンタープライズユーザーも来週からアクセスできます。

記事執筆時点では、ChatGPTではまだ利用できませんでした。一方で、APIからはすでに利用可能になっています。APIでは、モデルとしてgpt-4o-miniを指定することでGPT-4o miniを利用できます。

APIから利用可能なモデルの一覧
APIから利用可能なモデルの一覧のスクリーンショット。OpenAIの価格ページより

OpenAI PlatformのPlaygroundを使うと、コードを書かずにAPI経由でGPT-4o miniを試せます。Playgroundは、APIのリクエストとレスポンスを簡単に確認できるため、APIの使い方を学ぶのに最適です。

また、例として、PythonからGPT-4o miniのAPIを利用する場合と、コマンドラインから利用する場合のサンプルコードを示します。なお、APIを利用するには、APIキーが必要です。APIキーは、他人と共有しないように注意してください。

gpt-4o-mini.py
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{
"role": "system",
"content": [
{
"type": "text",
"text": "<ここにシステムプロンプトを入力>"
}
]
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "<ここにユーザーからのメッセージを入力>"
}
]
}
],
temperature=1,
max_tokens=256,
top_p=1,
frequency_penalty=0,
presence_penalty=0
)

以下は、コマンドラインからGPT-4o miniのAPIを利用する場合のサンプルコードです。$OPENAI_API_KEYには、実際のAPIキーを設定してください。また、環境によっては改行する方法が異なる場合があるので、適宜修正してください。たとえば、WindowsのPowerShellでは、末尾の/をバッククォート(`)に置き換える必要があります。

Terminal window
curl https://api.openai.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gpt-4o-mini",
"messages": [
{
"role": "system",
"content": [
{
"type": "text",
"text": "<ここにシステムプロンプトを入力>"
}
]
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "<ここにユーザーからのメッセージを入力>"
}
]
}
],
"temperature": 1,
"max_tokens": 256,
"top_p": 1,
"frequency_penalty": 0,
"presence_penalty": 0
}'

まとめ

OpenAIがリリースしたGPT-4o miniは、コスト効率の高い小型モデルです。GPT-4o miniは、GPT-3.5 Turboよりも60%以上低コストでありながら、MMLUで82%のスコアを記録しています。また、ジェイルブレイク対策としてインストラクションヒエラルキーを導入しています。

今後は、テキスト、画像、動画、音声の入出力をサポートする予定です。GPT-4o miniは、APIとChatGPTのFree、Plus、Teamユーザーが利用可能で、エンタープライズユーザーも来週からアクセスできます。

参考

Xに共有する LINEに共有する Threadsに共有する Misskeyに共有する Blueskyに共有する
著者のアイコン画像

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。