OpenAIがWhisperを超える音声認識・音声合成モデルを公開 ラジオのプレゼントキャンペーンも

サムネイル
画像:OpenAI

OpenAIが新たな音声合成モデルと音声認識モデルをAPIとして公開しました。

OpenAIがSTTとTTSの新モデルを発表

Play

OpenAIは、音声からテキストへの変換(speech-to-text:STT)が可能な「gpt-4o-transcribe」「gpt-4o-mini-transcribe」と、テキストから音声への変換(text-to-speech:TTS)が可能な「gpt-4o-mini-tts」を発表しました。

新しい音声テキスト変換モデルは、騒音のある環境や、アクセントや話速の変化などがある難易度の高い音声でも優れたパフォーマンスを発揮します。

「gpt-4o-transcribe」は、同社がオープンソースとして公開している音声テキスト変換モデル「Whisper」と比較して、複数の評価基準において単語エラー率(Word Error Rate:WER)が大幅に改善されています。

これにより、コールセンターや会議の議事録作成など、正確さが求められる場面でも使いやすくなっています。

また、テキスト音声変換モデルに対し、開発者が特定の話し方を指示できるようになりました。

たとえば「同情的な顧客サービス担当者のように話す」といった詳細な指示が可能で、顧客サポートの音声エージェントやナレーションなど、用途に応じて柔軟な音声を生成できます。

新しい音声モデルは、GPT-4oシリーズをベースに音声特化の高品質なデータセットで広範な事前学習を実施したとのことです。

また、高度な「蒸留」と呼ばれる技術により、大規模なモデルから小規模なモデルへ知識を伝達し、小規模なモデルでもリアルな会話を再現できるようになりました。

さらに、強化学習の手法を取り入れることで、音声テキスト変換の精度が向上したとのことです。

APIから利用可能に

同社は、これらの音声モデルがすでにAPIを通じて利用できると明らかにしました。

リアルタイムな音声処理が必要なスピーチ・トゥ・スピーチ体験の開発にも対応しています。

料金は次のとおりです。

OpenAIは今後、音声モデルの精度向上にさらに取り組むほか、開発者が自身のカスタムボイスを導入できるようにするなど、さらにパーソナライズされた機能を提供する予定です。

一方で、合成音声の安全性や倫理的な課題についても、引き続き議論を深めていく方針を示しています。

また、OpenAIは新しい音声モデルのリリースを記念して、同社のテキスト音声変換モデルを無料で試せるWebサイト「OpenAI.fm」を公開しました。

このWebサイトで生成した結果を期限内に共有したユーザーから3名に、OpenAIのロゴが入ったラジオ「Teenage Engineering OB-4」がプレゼントされるキャンペーンも実施されています。

キャンペーンの詳細は、OpenAIの開発者向けXアカウントの投稿から確認できます。

OpenAIのロゴが入った「Teenage Engineering OB-4」の画像
OpenAIのロゴが入ったTeenage Engineering OB-4
画像:OpenAIのライブ配信より

参考リンク

#AI#OpenAI#ニュース#プログラミング

記事をシェアする

おすすめアイテム

※このリンクを経由して商品を購入すると、当サイトの運営者が報酬を得ることがあります。詳細はこちら

このサイトを支援する

Buy Me a CoffeeまたはGitHub Sponsorsで支援していただけると、サイトの運営やコンテンツ制作の励みになります。定期的な支援と一度限りの支援がありますので、お間違いのないようにお願いします。

Buy me a coffee

著者のアイコン画像

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。