Googleがマルチモーダル出力対応でエージェントにも対応する「Gemini 2.0」を発表
Googleが新たなAIモデル「Gemini 2.0」を発表しました。Gemini 2.0は、エージェンティック時代に対応するための最先端技術を備えており、マルチモーダルな入力と出力、長い文脈の理解、高度な推論能力をもつエージェントの実現を目指しているとのことです。
Gemini 2.0の特徴
今回発表された「Gemini 2.0」は、エージェンティック時代に対応するために設計された、これまででもっとも高度なモデルです。Gemini 2.0は、画像と音声の出力や外部ツールとの連携が可能となりました。
昨年12月に発表された「Gemini 1.0」と今年2月に発表された「Gemini 1.5」は、テキスト、動画、画像、音声、コードなどさまざまなデータに対応し、長い文脈を理解する能力を有しています。
新たに発表された、低遅延かつ高性能な実験的モデル「Gemini 2.0 Flash」は、現在開発者向けに提供されています。
Gemini 2.0 Flashは、マルチモーダル入力(画像、動画、音声)とテキスト出力に対応しています。また、一部のパートナーにはテキスト読み上げ(TTS)とネイティブ画像生成機能も提供されています。
Gemini 2.0 Flashは、ネイティブなユーザーインターフェースアクション機能やマルチモーダル推論、長いコンテキストの理解、複雑な指示の遂行、計画立案、関数呼び出し、ネイティブツールの使用、低遅延な動作により、新たなエージェンティック体験を提供するとのことです。
一般提供は来年1月に予定されており、さらに多くのモデルサイズも提供される予定です。
また、Google AI StudioやVertex AIを通じて、Gemini 2.0 Flashを利用できます。リアルタイムオーディオやビデオストリーミング入力、複数ツールの組み合わせが可能な「Multimodal Live API」も公開されました。
Google CEOのSundar Pichai氏は「新たなマルチモダリティの進化であるネイティブな画像および音声出力やネイティブツールの使用により、私たちはユニバーサルアシスタントというビジョンに一歩近づく新しいAIエージェントを構築することが可能になります」と述べています。
Googleは同日、AIが自動でリサーチしてレポートにまとめる「Deep Research」を発表しました。Deep Researchについては、こちらの記事で紹介しています。
Google製品への統合
Gemini 2.0は、Googleの主要製品に統合される計画とのことです。
Google検索とGemini 2.0の高度な推論能力を統合することで、複雑なトピックや複数ステップの質問にも回答できるようになります。今週から限定的なテストが開始され、来年初めにはより広範な展開が予定されています。
Project Astra
「Project Astra」は、Gemini 2.0のマルチモーダル機能を活用したプロトタイプで、一部のテスター向けにAndroid端末でテストされています。
最新バージョンでは、複数言語対応や新しいツール(Google検索、Googleレンズ、Googleマップ)との連携が可能になっています。また、セッション中の記憶能力の向上、低遅延の動作などが実現されています。
今後、Geminiアプリやプロトタイプのメガネへの展開が予定されています。
Project Mariner
「Project Mariner」は、ブラウザー内で人間とエージェントが相互作用するプロトタイプです。
Gemini 2.0を基盤としており、ブラウザー上の情報を理解・推論し、Chrome拡張機能を通じてタスクを実行します。現在、実験的なChrome拡張機能を用いたテストが進行中とのことです。
Jules
「Jules」は、GitHubワークフローに直接統合されたAIコードエージェントで、開発者の指示と監督の下で問題解決や計画立案、実行を支援します。
まとめ
Googleが新たなAIモデル「Gemini 2.0」を発表しました。Gemini 2.0は、エージェンティック時代に対応するための最先端技術を備えており、マルチモーダルな入力と出力、長い文脈の理解、高度な推論能力をもつエージェントの実現を目指しています。
Gemini 2.0 Flashは、低遅延かつ高性能な実験的モデルで、マルチモーダル入力とテキスト出力に対応しています。一般提供は来年1月に予定されており、Google AI StudioやVertex AIを通じて利用できます。