AI OpenAI ニュースプログラミング

OpenAIがWhisperを超える音声認識・音声合成モデルを公開　ラジオのプレゼントキャンペーンも

2025年3月21日03:432025年5月28日14:52

サムネイル — 画像：OpenAI

OpenAIが新たな音声合成モデルと音声認識モデルをAPIとして公開しました。

OpenAIがSTTとTTSの新モデルを発表

OpenAIは、音声からテキストへの変換（speech-to-text：STT）が可能な「gpt-4o-transcribe」「gpt-4o-mini-transcribe」と、テキストから音声への変換（text-to-speech：TTS）が可能な「gpt-4o-mini-tts」を発表しました。

新しい音声テキスト変換モデルは、騒音のある環境や、アクセントや話速の変化などがある難易度の高い音声でも優れたパフォーマンスを発揮します。

広告

「gpt-4o-transcribe」は、同社がオープンソースとして公開している音声テキスト変換モデル「Whisper」と比較して、複数の評価基準において単語エラー率（Word Error Rate：WER）が大幅に改善されています。

これにより、コールセンターや会議の議事録作成など、正確さが求められる場面でも使いやすくなっています。

また、テキスト音声変換モデルに対し、開発者が特定の話し方を指示できるようになりました。

たとえば「同情的な顧客サービス担当者のように話す」といった詳細な指示が可能で、顧客サポートの音声エージェントやナレーションなど、用途に応じて柔軟な音声を生成できます。

新しい音声モデルは、GPT-4oシリーズをベースに音声特化の高品質なデータセットで広範な事前学習を実施したとのことです。

広告

また、高度な「蒸留」と呼ばれる技術により、大規模なモデルから小規模なモデルへ知識を伝達し、小規模なモデルでもリアルな会話を再現できるようになりました。

さらに、強化学習の手法を取り入れることで、音声テキスト変換の精度が向上したとのことです。

APIから利用可能に

同社は、これらの音声モデルがすでにAPIを通じて利用できると明らかにしました。

リアルタイムな音声処理が必要なスピーチ・トゥ・スピーチ体験の開発にも対応しています。

料金は次のとおりです。

STTモデル
- gpt-4o-transcribe：0.6セント/分
- gpt-4o-mini-transcribe：0.3セント/分
TTSモデル
- gpt-4o-mini-tts：1.5セント/分

OpenAIは今後、音声モデルの精度向上にさらに取り組むほか、開発者が自身のカスタムボイスを導入できるようにするなど、さらにパーソナライズされた機能を提供する予定です。

広告

一方で、合成音声の安全性や倫理的な課題についても、引き続き議論を深めていく方針を示しています。

また、OpenAIは新しい音声モデルのリリースを記念して、同社のテキスト音声変換モデルを無料で試せるWebサイト「OpenAI.fm」を公開しました。

このWebサイトで生成した結果を期限内に共有したユーザーから3名に、OpenAIのロゴが入ったラジオ「Teenage Engineering OB-4」がプレゼントされるキャンペーンも実施されています。

キャンペーンの詳細は、OpenAIの開発者向けXアカウントの投稿から確認できます。

OpenAIのロゴが入った「Teenage Engineering OB-4」の画像 — OpenAIのロゴが入ったTeenage Engineering OB-4画像：OpenAIのライブ配信より

参考リンク

Introducing next-generation audio models in the API | OpenAI

記事をシェア

Xに共有する

Blueskyに共有する

Misskeyに共有する

LINEに共有する

Threadsに共有する

フォローして最新情報を入手

Googleの優先ソースに追加すると、このサイトの記事をGoogleで見つけやすくなります。また、ぜひXやRSSフィードもフォローしてください。

Googleの優先ソースとして追加する

Googleの優先ソースとして追加する

Xのロゴ

おすすめ記事

著者のアイコン画像

ろぼいん

X Misskey GitHub Qiita

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーとして、TypeScriptを用いたWebアプリやブラウザー拡張機能を制作。Xのシャドウバン検知ツール「Shadowban Scanner」やリンクカード復活ツール「Restore Link Card」を公開し、国内外のメディアで紹介されました。iGEM 2023ではJapan-UnitedチームのWikiを制作してGrand Prizeの獲得に貢献。ブログではXやSNSの最新ニュース、不具合の検証と対処法、フロントエンド開発の知見を発信しています。