2024年5月15日 16:17更新：2024年5月15日 17:11

Googleのオープンな視覚言語モデル「PaliGemma」が登場　Google I/O 2024で発表

Googleが新たに、オープンなビジョン言語モデル（VLM）の「PaliGemma」を発表しました。このモデルは、視覚情報と言語情報を理解し、画像や短い動画のキャプションの生成、視覚的質問への応答、画像内のテキストの認識、物体検出、セグメンテーションといった多様なタスクに対応可能です。

PaliGemmaは、Googleの開発者向けイベント「Google I/O 2024」で発表されました。Google I/O 2024で発表された他の新機能やアップデートについては、こちらの記事を参照してください。

Google I/O 2024の発表内容まとめ

2024年5月15日（日本時間）に開催されたGoogle I/O 2024では、GoogleのAIの情報を中心とした発表が行われました。Googleは、長年にわたるAIへの投資と研究開発の成果を披露し、AIモデル「Gemini」を中心とした新たな製品とサービスを発表しました。

PaliGemmaとは？

PaliGemmaを実行しているHuggingFace Spaceのスクリーンショット — 画像：「 Introducing PaliGemma, Gemma 2, and an Upgraded Responsible AI Toolkit - Google Developers Blog 」より

PaliGemmaは、 PaLI-3 にインスパイアされ、 SigLIP ビジョンモデルとGemma言語モデルを統合した、オープンなビジョン言語モデル（VLM：Visual Language Model）です。多岐にわたる視覚・言語タスクで優れたパフォーマンスを発揮するよう設計されています。

PaLI-3は、画像とテキストの統合理解を提供するモデルで、SigLIPは視覚的特徴の抽出を専門とするモデルです。一方、Gemmaは高度な言語理解を担当するモデルです。この3つのモデルが統合されることで、PaliGemmaは従来のVLMに比べてより深い分析と洞察を提供することが可能となっています。

(window.powerTag.Init = window.powerTag.Init || []).push(function () { window.powerAPITag.display("pw_41759"); });

Googleのオープンな大規模言語モデル（LLM：Large Language Model）の「Gemma」については、こちらの記事で紹介しています。

GoogleのオープンなLLM「Gemma」を使ってみた　概要から使い方まで解説

2024年2月21日、Googleはオープンな大規模言語モデル（LLM）「Gemma」をリリースしました。Gemmaは、AI開発の責任ある進化のために制作され、Googleが以前に発表したGeminiモデルと同じ研究と技術を基にしています。このモデルは、開発者と研究者がAIをより責任を持って構築するためのオープンモデルとして位置づけられています。この記事では、Gemmaについて詳しく解説したあと、実際にGemmaを使ってみます。

PaliGemmaの最大のメリットは、マルチモーダルに対応している点です。これにより、画像と言語の両方を同時に理解し、幅広いタスクに利用できます。

また、PaliGemmaが発表されたGoogle I/O 2024の前日には、OpenAIが新しいマルチモーダルAI「GPT-4o」を発表しています。

GPT-4o発表！OpenAI Spring Updateの発表内容まとめ

5月14日午前2時（日本時間）から、OpenAIは「Spring Update」と題し、GPT-4関連の新機能についてのライブ配信を実施しました。この記事では、OpenAIがライブ配信で発表したSpring Updateの内容についてまとめます。

GPT-4oの概要から使い方まで徹底解説！OpenAIの次世代フラッグシップモデル

2024年5月13日、OpenAIは次世代のフラッグシップモデルであるGPT-4oを発表しました。この記事では、GPT-4oの概要から使い方までを徹底解説します。

PaliGemmaを使う方法

PaliGemmaは、 Hugging Face や Kaggle からダウンロードでき、Google Colabノートブックやローカルで利用可能です。複数の解像度で事前学習されたチェックポイントとファインチューニング済みのチェックポイントが提供されています。

PaliGemma：さまざまなタスクでファインチューニングできる汎用できな事前学習済みモデル
PaliGemma-FT：研究データセットに微調整された研究目的モデル

また、Googleは学術研究者を支援しており、Google Cloudのクレジットを利用することで、PaliGemmaを活用した高度な研究が可能です。学術研究をしている場合は、Google Cloudクレジットをこちらから申請できます。

Googleによると、paligemma-3b-mixを除くPaliGemmaモデルは、有用な結果を生成するためにファインチューニングを必要とするとのことです。エンドユーザーにデプロイする前に、ファインチューニングして出力を確認することが推奨されています。

まとめ

Googleのオープンなビジョン言語モデル「PaliGemma」は、視覚情報と言語情報を統合し、さまざまなタスクに対応可能なモデルです。PaLI-3、SigLIP、Gemmaの3つのモデルを統合することで、より深い分析と洞察を提供します。PaliGemmaは、Hugging FaceやKaggleからダウンロードでき、Google Cloudのクレジットを利用することで高度な研究が可能です。

参考

#Google #AI #ニュース #解説 #Gemma

このサイトを支援する

Buy Me a CoffeeまたはGitHub Sponsorsで支援していただけると、サイトの運営やコンテンツ制作の励みになります。定期的な支援と一度限りの支援がありますので、お間違いのないようにお願いします。

ろぼいん

X Misskey GitHub Qiita

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。