更新:

Googleがマルチモーダル出力対応でエージェントにも対応する「Gemini 2.0」を発表

サムネイル
画像:Google

Googleが新たなAIモデル「Gemini 2.0」を発表しました。Gemini 2.0は、エージェンティック時代に対応するための最先端技術を備えており、マルチモーダルな入力と出力、長い文脈の理解、高度な推論能力をもつエージェントの実現を目指しているとのことです。

Gemini 2.0の特徴

Play

今回発表された「Gemini 2.0」は、エージェンティック時代に対応するために設計された、これまででもっとも高度なモデルです。Gemini 2.0は、画像と音声の出力や外部ツールとの連携が可能となりました。

昨年12月に発表された「Gemini 1.0」と今年2月に発表された「Gemini 1.5」は、テキスト、動画、画像、音声、コードなどさまざまなデータに対応し、長い文脈を理解する能力を有しています。

新たに発表された、低遅延かつ高性能な実験的モデル「Gemini 2.0 Flash」は、現在開発者向けに提供されています。

Gemini 2.0 Flashは、マルチモーダル入力(画像、動画、音声)とテキスト出力に対応しています。また、一部のパートナーにはテキスト読み上げ(TTS)とネイティブ画像生成機能も提供されています。

Gemini 2.0 Flashは、ネイティブなユーザーインターフェースアクション機能やマルチモーダル推論、長いコンテキストの理解、複雑な指示の遂行、計画立案、関数呼び出し、ネイティブツールの使用、低遅延な動作により、新たなエージェンティック体験を提供するとのことです。

一般提供は来年1月に予定されており、さらに多くのモデルサイズも提供される予定です。

また、Google AI StudioやVertex AIを通じて、Gemini 2.0 Flashを利用できます。リアルタイムオーディオやビデオストリーミング入力、複数ツールの組み合わせが可能な「Multimodal Live API」も公開されました。

Google CEOのSundar Pichai氏は「新たなマルチモダリティの進化であるネイティブな画像および音声出力やネイティブツールの使用により、私たちはユニバーサルアシスタントというビジョンに一歩近づく新しいAIエージェントを構築することが可能になります」と述べています。

Googleは同日、AIが自動でリサーチしてレポートにまとめる「Deep Research」を発表しました。Deep Researchについては、こちらの記事で紹介しています。

Google製品への統合

Gemini 2.0は、Googleの主要製品に統合される計画とのことです。

Google検索とGemini 2.0の高度な推論能力を統合することで、複雑なトピックや複数ステップの質問にも回答できるようになります。今週から限定的なテストが開始され、来年初めにはより広範な展開が予定されています。

Project Astra

Play

「Project Astra」は、Gemini 2.0のマルチモーダル機能を活用したプロトタイプで、一部のテスター向けにAndroid端末でテストされています。

最新バージョンでは、複数言語対応や新しいツール(Google検索、Googleレンズ、Googleマップ)との連携が可能になっています。また、セッション中の記憶能力の向上、低遅延の動作などが実現されています。

今後、Geminiアプリやプロトタイプのメガネへの展開が予定されています。

Project Mariner

Play

「Project Mariner」は、ブラウザー内で人間とエージェントが相互作用するプロトタイプです。

Gemini 2.0を基盤としており、ブラウザー上の情報を理解・推論し、Chrome拡張機能を通じてタスクを実行します。現在、実験的なChrome拡張機能を用いたテストが進行中とのことです。

Jules

Julesのイメージ画像
画像:Google

「Jules」は、GitHubワークフローに直接統合されたAIコードエージェントで、開発者の指示と監督の下で問題解決や計画立案、実行を支援します。

まとめ

Googleが新たなAIモデル「Gemini 2.0」を発表しました。Gemini 2.0は、エージェンティック時代に対応するための最先端技術を備えており、マルチモーダルな入力と出力、長い文脈の理解、高度な推論能力をもつエージェントの実現を目指しています。

Gemini 2.0 Flashは、低遅延かつ高性能な実験的モデルで、マルチモーダル入力とテキスト出力に対応しています。一般提供は来年1月に予定されており、Google AI StudioやVertex AIを通じて利用できます。

参考

#AI#Gemini#Google#ニュース
Xに共有する Blueskyに共有する Misskeyに共有する LINEに共有する Threadsに共有する

おすすめアイテム

※このリンクを経由して商品を購入すると、当サイトの運営者が報酬を得ることがあります。詳細はこちら

著者のアイコン画像

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。