Googleのオープンな視覚言語モデル「PaliGemma」が登場 Google I/O 2024で発表
Googleが新たに、オープンなビジョン言語モデル(VLM)の「PaliGemma」を発表しました。このモデルは、視覚情報と言語情報を理解し、画像や短い動画のキャプションの生成、視覚的質問への応答、画像内のテキストの認識、物体検出、セグメンテーションといった多様なタスクに対応可能です。
PaliGemmaは、Googleの開発者向けイベント「Google I/O 2024」で発表されました。Google I/O 2024で発表された他の新機能やアップデートについては、こちらの記事を参照してください。

PaliGemmaとは?

PaliGemmaは、 PaLI-3 にインスパイアされ、 SigLIP ビジョンモデルとGemma言語モデルを統合した、オープンなビジョン言語モデル(VLM:Visual Language Model)です。多岐にわたる視覚・言語タスクで優れたパフォーマンスを発揮するよう設計されています。
PaLI-3は、画像とテキストの統合理解を提供するモデルで、SigLIPは視覚的特徴の抽出を専門とするモデルです。一方、Gemmaは高度な言語理解を担当するモデルです。この3つのモデルが統合されることで、PaliGemmaは従来のVLMに比べてより深い分析と洞察を提供することが可能となっています。
Googleのオープンな大規模言語モデル(LLM:Large Language Model)の「Gemma」については、こちらの記事で紹介しています。

PaliGemmaの最大のメリットは、マルチモーダルに対応している点です。これにより、画像と言語の両方を同時に理解し、幅広いタスクに利用できます。
また、PaliGemmaが発表されたGoogle I/O 2024の前日には、OpenAIが新しいマルチモーダルAI「GPT-4o」を発表しています。


PaliGemmaを使う方法
PaliGemmaは、 Hugging Face や Kaggle からダウンロードでき、Google Colabノートブックやローカルで利用可能です。複数の解像度で事前学習されたチェックポイントとファインチューニング済みのチェックポイントが提供されています。
- PaliGemma:さまざまなタスクでファインチューニングできる汎用できな事前学習済みモデル
- PaliGemma-FT:研究データセットに微調整された研究目的モデル
また、Googleは学術研究者を支援しており、Google Cloudのクレジットを利用することで、PaliGemmaを活用した高度な研究が可能です。学術研究をしている場合は、Google Cloudクレジットを こちら から申請できます。
Googleによると、paligemma-3b-mix
を除くPaliGemmaモデルは、有用な結果を生成するためにファインチューニングを必要とするとのことです。エンドユーザーにデプロイする前に、ファインチューニングして出力を確認することが推奨されています。
まとめ
Googleのオープンなビジョン言語モデル「PaliGemma」は、視覚情報と言語情報を統合し、さまざまなタスクに対応可能なモデルです。PaLI-3、SigLIP、Gemmaの3つのモデルを統合することで、より深い分析と洞察を提供します。PaliGemmaは、Hugging FaceやKaggleからダウンロードでき、Google Cloudのクレジットを利用することで高度な研究が可能です。
参考
- Introducing PaliGemma, Gemma 2, and an Upgraded Responsible AI Toolkit - Google Developers Blog
- PaliGemma | Google for Developers
おすすめアイテム
※このリンクを経由して商品を購入すると、当サイトの運営者が報酬を得ることがあります。詳細はこちら。
このサイトを支援する
Buy Me a CoffeeまたはGitHub Sponsorsで支援していただけると、サイトの運営やコンテンツ制作の励みになります。定期的な支援と一度限りの支援がありますので、お間違いのないようにお願いします。
-1.png&w=256&q=75)
生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。
Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。