OpenAIがWhisperを超える音声認識・音声合成モデルを公開 ラジオのプレゼントキャンペーンも

OpenAIが新たな音声合成モデルと音声認識モデルをAPIとして公開しました。
OpenAIがSTTとTTSの新モデルを発表
OpenAIは、音声からテキストへの変換(speech-to-text:STT)が可能な「gpt-4o-transcribe」「gpt-4o-mini-transcribe」と、テキストから音声への変換(text-to-speech:TTS)が可能な「gpt-4o-mini-tts」を発表しました。
新しい音声テキスト変換モデルは、騒音のある環境や、アクセントや話速の変化などがある難易度の高い音声でも優れたパフォーマンスを発揮します。
「gpt-4o-transcribe」は、同社がオープンソースとして公開している音声テキスト変換モデル「Whisper」と比較して、複数の評価基準において単語エラー率(Word Error Rate:WER)が大幅に改善されています。
これにより、コールセンターや会議の議事録作成など、正確さが求められる場面でも使いやすくなっています。
また、テキスト音声変換モデルに対し、開発者が特定の話し方を指示できるようになりました。
たとえば「同情的な顧客サービス担当者のように話す」といった詳細な指示が可能で、顧客サポートの音声エージェントやナレーションなど、用途に応じて柔軟な音声を生成できます。
新しい音声モデルは、GPT-4oシリーズをベースに音声特化の高品質なデータセットで広範な事前学習を実施したとのことです。
また、高度な「蒸留」と呼ばれる技術により、大規模なモデルから小規模なモデルへ知識を伝達し、小規模なモデルでもリアルな会話を再現できるようになりました。
さらに、強化学習の手法を取り入れることで、音声テキスト変換の精度が向上したとのことです。
APIから利用可能に
同社は、これらの音声モデルがすでにAPIを通じて利用できると明らかにしました。
リアルタイムな音声処理が必要なスピーチ・トゥ・スピーチ体験の開発にも対応しています。
料金は次のとおりです。
- STTモデル
- gpt-4o-transcribe:0.6セント/分
- gpt-4o-mini-transcribe:0.3セント/分
- TTSモデル
- gpt-4o-mini-tts:1.5セント/分
OpenAIは今後、音声モデルの精度向上にさらに取り組むほか、開発者が自身のカスタムボイスを導入できるようにするなど、さらにパーソナライズされた機能を提供する予定です。
一方で、合成音声の安全性や倫理的な課題についても、引き続き議論を深めていく方針を示しています。
また、OpenAIは新しい音声モデルのリリースを記念して、同社のテキスト音声変換モデルを無料で試せるWebサイト「OpenAI.fm」を公開しました。
このWebサイトで生成した結果を期限内に共有したユーザーから3名に、OpenAIのロゴが入ったラジオ「Teenage Engineering OB-4」がプレゼントされるキャンペーンも実施されています。
キャンペーンの詳細は、OpenAIの開発者向けXアカウントの投稿から確認できます。

画像:OpenAIのライブ配信より