2024年5月14日 10:45更新：2024年8月29日 15:56

GPT-4oの概要から使い方まで徹底解説！OpenAIの次世代フラッグシップモデル

2024年5月13日、OpenAIは次世代のフラッグシップモデルであるGPT-4oを発表しました。GPT-4oは、音声、ビジョン、テキストをリアルタイムに推論できます。この記事では、GPT-4oの概要から使い方までを徹底解説します。

なお、GPT-4oが発表されたイベント「Spring Update」では、GPT-4oの他にもさまざまな新機能やアップデートが発表されました。詳細については、こちらの記事を参照してください。

GPT-4o発表！OpenAI Spring Updateの発表内容まとめ

5月14日午前2時（日本時間）から、OpenAIは「Spring Update」と題し、GPT-4関連の新機能についてのライブ配信を実施しました。この記事では、OpenAIがライブ配信で発表したSpring Updateの内容についてまとめます。

GPT-4oの概要

Mira Murati氏がステージに立っており、背後のスクリーンには「GPT-4o」と書かれている — GPT-4oを発表するMira Murati氏。画像は公式YouTube より

GPT-4o（「o」は「omni」、つまり全能の意味）は、その名前が示す通り、より自然なヒューマン・コンピュータ・インタラクションを目指して設計されました。

GPT-4oは、テキスト、音声、画像の任意の組み合わせを入力として受け取り、テキスト、音声、画像の任意の組み合わせを出力できます。音声入力に対して最小で232ミリ秒、平均320ミリ秒で応答でき、人間の会話の反応時間とほぼ同じです。英語やコーディングにおいてはGPT-4 Turboと同等の性能を発揮し、多言語テキストの対応も大幅に改良されています。

従来のGPT-4やGPT-3.5を利用したVoice Modeでは、平均してそれぞれ2.8秒と5.4秒の遅延が存在していましたが、GPT-4oでは大幅に短縮されました。さらに、GPT-4oはエンドツーエンドでテキスト、ビジョン、音声を統合してトレーニングされた新しいモデルで、すべての入力と出力が同じニューラルネットワークによって処理されます。従来のGPT-4では、音声認識モデルから言語モデルへのデータの受け渡しの過程で一部の情報が欠落していましたが、GPT-4oではそのようなロスを軽減できます。

さらに、GPT-4oは、現行のGPT-4 Turboよりも視覚・音声理解能力が格段に向上しており、50%のコスト削減と2倍の処理速度を実現しています。トークナイザーも改良されており、日本語では同一テキストのトークン数が以前の1.4分の1になりました。大規模言語モデル（LLM）のAPIではトークン数によって料金が決定されるため、トークン数の削減によって利用料が安価になります。今回のアップデートにより、日本語のテキストをAPIで扱う際の料金が単純計算でGPT-4 Turboの2.8分の1に低下することになります。

モデルの評価

GPT-4oは、テキスト、推論、コーディングの面でGPT-4 Turboと同等の性能を実現し、多言語、音声、視覚の性能において高水準を達成しています。また、GPT-4oは、音声モダリティにおいても高い性能を発揮し、音声入力に対して最小で232ミリ秒、平均320ミリ秒で応答できることが確認されています。

前モデルでは、音声をテキストに変換し、テキストを処理し、再度音声に変換するという段階的なプロセスが必要でしたが、GPT-4oは単一のモデルですべてをカバーします。これにより、トーンや話者の人数、背景ノイズなどの情報を直接受け取り、笑い声や歌、感情を表現することが可能になっています。

OpenAIが公開したデモ動画では、GPT-4oの感情豊かな音声を聞くことができます。

セキュリティと安全対策

GPT-4oは、サイバーセキュリティ、CBRN、安全性と公平性、誤情報の評価において「中リスク以下」の評価を受けたとのことです。これらの評価は、カスタムファインチューニングとプロンプトを使用してモデルの能力をよりよく引き出すための一連の自動または手動の評価にもとづいています。

音声モダリティに関しては、新たなリスクがあるとして、とくに安全性に配慮したガードレールが導入されています。初期段階では、あらかじめ設定されたプリセット音声のみを選択でき、既存の安全ポリシーに従うとされています。これにより、一般的なリスクを最小限に抑えられます。

GPT-4oの使い方

GPT-4oのテキストおよび画像の機能は、ChatGPTの無料ユーザーと、有料のChatGPT Plus利用者に向けて提供が開始されました。Plusユーザーには無料ユーザーの5倍のメッセージ制限が適用され、数週間以内に新しいVoice Modeもアルファ版として提供される予定です。

現在、ChatGPTではデフォルトでGPT-4oが利用されているため、特別な設定は不要です。無料ユーザーはGPT-4oの利用量に制限があり、制限に達すると従来のGPT-3.5が利用されます。ChatGPTの出力の下部に星のアイコンが表示され、これをクリックすることで、GPT-4oとGPT-3.5のの出力を切り替えられます。

開発者は、GPT-4oをAPI経由で利用できます。GPT-4 Turboと比較して、2倍の速度で処理しつつ、半分のコストで利用が可能です。これにより、コストが抑えられつつも、高度な機能を幅広いアプリケーションに統合できます。さらに、GPT-4oの新しい音声機能とビデオ機能も近々、信頼できるパートナー向けに提供される予定です。

GPT-4oのAPIはすでに利用できるようになっており、モデルの一覧から選択できるようになっています。価格は、入力が100万トークンあたり5ドル、出力が100万トークンあたり15ドルです。

ChatGPTのAPIのモデルの選択画面のスクリーンショット。［gpt-4o］が選択されている — APIではすでに［gpt-4o］を選択できるようになっている

OpenAI PlatformのPlayground を使うと、コードを書かずにAPI経由でGPT-4oを試せます。Playgroundは、APIのリクエストとレスポンスを簡単に確認できるため、APIの使い方を学ぶのに最適です。

また、例として、PythonからGPT-4oのAPIを利用する場合と、コマンドラインから利用する場合のサンプルコードを示します。なお、APIを利用するには、APIキーが必要です。APIキーは、他人と共有しないように注意してください。

1
from openai import OpenAI
2
client = OpenAI()
3

4
response = client.chat.completions.create(
5
  model="gpt-4o",
6
  messages=[
7
    {
8
      "role": "system",
9
      "content": [
10
        {
11
          "type": "text",
12
          "text": "<ここにシステムプロンプトを入力>"
13
        }
14
      ]
15
    },
16
    {
17
      "role": "user",
18
      "content": [
19
        {
20
          "type": "text",
21
          "text": "<ここにユーザーからのメッセージを入力>"
22
        }
23
      ]
24
    }
25
  ],
26
  temperature=1,
27
  max_tokens=256,
28
  top_p=1,
29
  frequency_penalty=0,
30
  presence_penalty=0
31
)

以下は、コマンドラインからGPT-4oのAPIを利用する場合のサンプルコードです。$OPENAI_API_KEYには、実際のAPIキーを設定してください。また、環境によっては改行する方法が異なる場合があるので、適宜修正してください。たとえば、WindowsのPowerShellでは、末尾の/をバッククォート（`）に置き換える必要があります。

curl https://api.openai.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
  "model": "gpt-4o",
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "<ここにシステムプロンプトを入力>"
        }
      ]
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "<ここにユーザーからのメッセージを入力>"
        }
      ]
    }
  ],
  "temperature": 1,
  "max_tokens": 256,
  "top_p": 1,
  "frequency_penalty": 0,
  "presence_penalty": 0
}'

まとめ

GPT-4oは、モデルはマルチモーダルな機能を備え、テキスト、音声、画像の任意の組み合わせをリアルタイムで処理することが可能です。従来のモデルと比較して、処理速度が大幅に向上し、コストも削減されています。さらに、安全対策も強化されており、多岐にわたるリスクへの対応が図られています。

すでに無料およびPlus利用者に向けて提供が始まっており、開発者向けのAPIも公開されています。

GPT-4oの登場により、OpenAIのサービスはさらに進化し、ユーザーにとって使いやすくなりました。今後のOpenAIの動向に注目です。

参考

Hello GPT-4o | OpenAI

このサイトを支援する

Buy Me a CoffeeまたはGitHub Sponsorsで支援していただけると、サイトの運営やコンテンツ制作の励みになります。定期的な支援と一度限りの支援がありますので、お間違いのないようにお願いします。

ろぼいん

X Misskey GitHub Qiita

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。