GPT-4oの概要から使い方まで徹底解説!OpenAIの次世代フラッグシップモデル
2024年5月13日、OpenAIは次世代のフラッグシップモデルであるGPT-4oを発表しました。GPT-4oは、音声、ビジョン、テキストをリアルタイムに推論できます。この記事では、GPT-4oの概要から使い方までを徹底解説します。
なお、GPT-4oが発表されたイベント「Spring Update」では、GPT-4oの他にもさまざまな新機能やアップデートが発表されました。詳細については、こちらの記事を参照してください。
GPT-4oの概要
GPT-4o(「o」は「omni」、つまり全能の意味)は、その名前が示す通り、より自然なヒューマン・コンピュータ・インタラクションを目指して設計されました。
GPT-4oは、テキスト、音声、画像の任意の組み合わせを入力として受け取り、テキスト、音声、画像の任意の組み合わせを出力できます。音声入力に対して最小で232ミリ秒、平均320ミリ秒で応答でき、人間の会話の反応時間とほぼ同じです。英語やコーディングにおいてはGPT-4 Turboと同等の性能を発揮し、多言語テキストの対応も大幅に改良されています。
従来のGPT-4やGPT-3.5を利用したVoice Modeでは、平均してそれぞれ2.8秒と5.4秒の遅延が存在していましたが、GPT-4oでは大幅に短縮されました。さらに、GPT-4oはエンドツーエンドでテキスト、ビジョン、音声を統合してトレーニングされた新しいモデルで、すべての入力と出力が同じニューラルネットワークによって処理されます。従来のGPT-4では、音声認識モデルから言語モデルへのデータの受け渡しの過程で一部の情報が欠落していましたが、GPT-4oではそのようなロスを軽減できます。
さらに、GPT-4oは、現行のGPT-4 Turboよりも視覚・音声理解能力が格段に向上しており、50%のコスト削減と2倍の処理速度を実現しています。トークナイザーも改良されており、日本語では同一テキストのトークン数が以前の1.4分の1になりました。大規模言語モデル(LLM)のAPIではトークン数によって料金が決定されるため、トークン数の削減によって利用料が安価になります。今回のアップデートにより、日本語のテキストをAPIで扱う際の料金が単純計算でGPT-4 Turboの2.8分の1に低下することになります。
モデルの評価
GPT-4oは、テキスト、推論、コーディングの面でGPT-4 Turboと同等の性能を実現し、多言語、音声、視覚の性能において高水準を達成しています。また、GPT-4oは、音声モダリティにおいても高い性能を発揮し、音声入力に対して最小で232ミリ秒、平均320ミリ秒で応答できることが確認されています。
前モデルでは、音声をテキストに変換し、テキストを処理し、再度音声に変換するという段階的なプロセスが必要でしたが、GPT-4oは単一のモデルですべてをカバーします。これにより、トーンや話者の人数、背景ノイズなどの情報を直接受け取り、笑い声や歌、感情を表現することが可能になっています。
OpenAIが公開したデモ動画では、GPT-4oの感情豊かな音声を聞くことができます。
セキュリティと安全対策
GPT-4oは、サイバーセキュリティ、CBRN、安全性と公平性、誤情報の評価において「中リスク以下」の評価を受けたとのことです。これらの評価は、カスタムファインチューニングとプロンプトを使用してモデルの能力をよりよく引き出すための一連の自動または手動の評価にもとづいています。
音声モダリティに関しては、新たなリスクがあるとして、とくに安全性に配慮したガードレールが導入されています。初期段階では、あらかじめ設定されたプリセット音声のみを選択でき、既存の安全ポリシーに従うとされています。これにより、一般的なリスクを最小限に抑えられます。
GPT-4oの使い方
GPT-4oのテキストおよび画像の機能は、ChatGPTの無料ユーザーと、有料のChatGPT Plus利用者に向けて提供が開始されました。Plusユーザーには無料ユーザーの5倍のメッセージ制限が適用され、数週間以内に新しいVoice Modeもアルファ版として提供される予定です。
現在、ChatGPTではデフォルトでGPT-4oが利用されているため、特別な設定は不要です。無料ユーザーはGPT-4oの利用量に制限があり、制限に達すると従来のGPT-3.5が利用されます。ChatGPTの出力の下部に星のアイコンが表示され、これをクリックすることで、GPT-4oとGPT-3.5のの出力を切り替えられます。
開発者は、GPT-4oをAPI経由で利用できます。GPT-4 Turboと比較して、2倍の速度で処理しつつ、半分のコストで利用が可能です。これにより、コストが抑えられつつも、高度な機能を幅広いアプリケーションに統合できます。さらに、GPT-4oの新しい音声機能とビデオ機能も近々、信頼できるパートナー向けに提供される予定です。
GPT-4oのAPIはすでに利用できるようになっており、モデルの一覧から選択できるようになっています。価格は、入力が100万トークンあたり5ドル、出力が100万トークンあたり15ドルです。
OpenAI PlatformのPlaygroundを使うと、コードを書かずにAPI経由でGPT-4oを試せます。Playgroundは、APIのリクエストとレスポンスを簡単に確認できるため、APIの使い方を学ぶのに最適です。
また、例として、PythonからGPT-4oのAPIを利用する場合と、コマンドラインから利用する場合のサンプルコードを示します。なお、APIを利用するには、APIキーが必要です。APIキーは、他人と共有しないように注意してください。
以下は、コマンドラインからGPT-4oのAPIを利用する場合のサンプルコードです。$OPENAI_API_KEY
には、実際のAPIキーを設定してください。また、環境によっては改行する方法が異なる場合があるので、適宜修正してください。たとえば、WindowsのPowerShellでは、末尾の/
をバッククォート(`
)に置き換える必要があります。
まとめ
GPT-4oは、モデルはマルチモーダルな機能を備え、テキスト、音声、画像の任意の組み合わせをリアルタイムで処理することが可能です。従来のモデルと比較して、処理速度が大幅に向上し、コストも削減されています。さらに、安全対策も強化されており、多岐にわたるリスクへの対応が図られています。
すでに無料およびPlus利用者に向けて提供が始まっており、開発者向けのAPIも公開されています。
GPT-4oの登場により、OpenAIのサービスはさらに進化し、ユーザーにとって使いやすくなりました。今後のOpenAIの動向に注目です。
参考
おすすめのサイト
AIやメタバースについては、こちらのサイトも是非参考にしてみてください↓