2024年5月14日 03:26更新：2024年5月14日 10:24

GPT-4o発表！OpenAI Spring Updateの発表内容まとめ

Mira Murati氏がステージに立っており、背後のスクリーンには「GPT-4o」と書かれている

5月14日午前2時（日本時間）から、OpenAIは「Spring Update」と題し、GPT-4関連の新機能についてのライブ配信を実施しました。この記事では、OpenAIがライブ配信で発表したSpring Updateの内容についてまとめます。

今回の発表の目玉は、新しいフラッグシップモデルであるGPT-4oの登場です。GPT-4oは、従来のGPT-4よりも高速で、テキスト、視覚、音声の一括処理が可能となっています。また、無料ユーザーにも提供されます。

なお、ライブ配信のアーカイブはこちらのYouTubeから確認できます。

OpenAIのSpring Updateのティザービジュアル。画像は公式YouTubeより

デスクトップ版ChatGPTの提供開始とUIの刷新

イベントで最初に触れられたのは、デスクトップ版ChatGPTのリリースです。これにより、ユーザーはモバイルデバイスだけでなく、デスクトップでも同様に気軽にChatGPTを利用できるようになります。これについて、OpenAIのCTOであるMira Murati氏は、「フリクションを減少させ、誰もがChatGPTを使えるようにすることが重要だ」と強調しました。

macOSのChatGPTアプリのスクリーンショット — ChatGPTのmacOS版デスクトップアプリ。画像は公式YouTubeより

ChatGPTのmacOS版デスクトップアプリは、本日より有料のChatGPT Plusユーザー向けに提供され、今後数週間でさらに多くのユーザーに提供される予定です。また、今年後半にはWindows版も提供される予定です。

新しいデスクトップ版リリースと同時に、UI（ユーザーインターフェース）の刷新も発表されました。今までより直感的に操作でき、ChatGPTとのやり取りに集中できるように工夫されています。Murati氏は「モデルが複雑になる一方で、操作体験はより自然で簡単になる」と説明しました。

GPT-4o

今回の発表のハイライトは、OpenAIの新しいフラッグシップモデルであるGPT-4o（GPT-4 Omnimodel） です。GPT-4レベルの性能でありながら、パフォーマンスが大幅に向上しています。GPT-4oはGPT-4 Turboよりも2倍高速で、価格は半分になっています。本日からChatGPTの無料プランと有料プランのユーザーに展開されています。

Voice Modeについても大きな進化が見られました。従来の音声モードとは異なり、リアルタイムでの対話が可能となり、ユーザーは音声での会話中にモデルの発話を遮って話しかけることもできます。さらに、GPT-4oが組み込まれたChatGPTは、対話の感情を理解し、会話のトーンに応じて声のトーンを変える機能も搭載されています。

こちらのデモ動画では、GPT-4oの感情豊かな音声を聞くことができます。

GPT-4oは、ChatGPTの無料ユーザーにも提供されます。また、GPT-4oはテキストだけでなく、画像や音声も同時に処理できるマルチモーダルモデルです。これにより、ChatGPTを使って、テキスト、画像、音声のすべてを同時に扱えるようになります。GPT-4oのAPIは、本日から利用可能で、音声とビデオを近日中にサポートするとのことです。

GPT-4oの詳細については、こちらの記事で詳しく解説しています。

GPT-4oの概要から使い方まで徹底解説！OpenAIの次世代フラッグシップモデル

2024年5月13日、OpenAIは次世代のフラッグシップモデルであるGPT-4oを発表しました。この記事では、GPT-4oの概要から使い方までを徹底解説します。

OpenAIのWilliam Fedus氏は、GPT-4oがLMSys Arenaで「im-also-a-good-gpt2-chatbot」という名前でテストされていたことを明かしています。im-also-a-good-gpt2-chatbotは、突如現れたGPT-4レベルの高性能LLM「gpt2-chatbot」が使えなくなったあとに代わりに登場したモデルです。その性能やエラーメッセージから、OpenAIの次世代モデルではないかとうわさされていました。OpenAIのCEOのSam Altman氏は自身のX（旧Twitter）で、GPT-4oについて「非常によいモデルです（テスト中に名前を少し楽しんでいました）」と述べています。

突如現れた高性能LLM「gpt2-chatbot」の謎に迫る

大規模言語モデル（LLM）のベンチマークプラットフォームのLMSYS Chatbot Arena上に、突如として「gpt2-chatbot」というLLMが現れました。この記事では、gpt2-chatbotについて、現時点でわかっている情報を深掘りしていきます。

新機能のデモ

イベントでは、新しいGPT-4oを組み込んだChatGPTのさまざまなデモが実施されました。

音声モードのデモでは、OpenAIのフロンティア研究責任者のMark Chen氏がスマホを使用してリアルタイムの対話を実演しました。ライブステージ上で「深呼吸をするアドバイス」を求められたChatGPTは、ジョーク交じりに応答しました。歌を歌ったり、感情豊かな声で話すことも可能なようです。

視覚機能についても、OpenAIのポストトレーニングチームを率いるBarrett Zoph氏が紙に書いた方程式をChatGPTに解かせるデモを行いました。スクリーンショットや写真などをアップロードし、ChatGPTと視覚的に対話できるとのことです。

ChatGPTの画面に数式が書かれた紙が写っている — ChatGPTを使って簡単な数式を解くデモ。画像は公式YouTubeより

さらに、Chen氏はプログラミングコードのデバッグのデモを実施しました。ChatGPTがコードの内容を理解し、適切なアドバイスを提供することで、プログラマーの作業効率を大幅に向上させます。

パソコンの画面のスクリーンショット。背後にはコードエディターがあり、手前にはChatGPTのデスクトップアプリがオーバーレイ表示されている — ChatGPTのデスクトップアプリを使ったコーディングアシストのデモ。画像は公式YouTubeより

最後に、リアルタイムでの翻訳機能と感情推定のデモが行われました。イタリア語を英語に翻訳するタスクや、カメラから取得したユーザーの表情から感情を読み取る機能が紹介され、会場から大きな拍手を浴びました。会話のラグはほとんどなく、また割り込んで話すこともできるため、非常に自然な対話が可能となっています。

まとめ

OpenAIのSpring Updateでは、GPT-4oをはじめとする新機能の発表が行われました。GPT-4oは、GPT-4よりも高速で、テキスト、視覚、音声の一括処理が可能となっています。また、無料ユーザーにも提供されます。デスクトップ版ChatGPTの提供開始やUIの刷新など、さまざまな新機能が発表されました。今後もOpenAIの動向に注目です。

参考

#OpenAI #AI #ニュース #解説 #ChatGPT

このサイトを支援する

Buy Me a CoffeeまたはGitHub Sponsorsで支援していただけると、サイトの運営やコンテンツ制作の励みになります。定期的な支援と一度限りの支援がありますので、お間違いのないようにお願いします。

ろぼいん

X Misskey GitHub Qiita

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。