ろぼいんブログ
更新:

Grokにカメラ映像を“見る”機能と多言語の音声会話が追加

サムネイル

X(旧Twitter)を運営するxAIが、同社のAI「Grok」がカメラの映像を“見る”ことができるようになる「Grok Vision」という機能を発表しました。

また、Grokと音声で会話できる「Voice Mode」が多言語の音声とリアルタイム検索にも対応したとのことです。

Grokは、イーロン・マスク率いるxAIが開発している大規模言語モデル(LLM)です。

xAIは、ChatGPTなどで知られるOpenAIに対抗して2023年に設立されたAI開発企業で、 2025年3月にはXを買収しました

GrokはXと非常によく統合されており、 XのアプリやWebサイトの専用タブから利用できる ほか、「 @grok 」とメンションすればタイムライン上で直接会話できます。

また、Web検索機能に加え、X上のリアルタイムの投稿を参照して回答する機能が搭載されているため、競合他社のLLMと比較してリアルタイム情報に非常に強いことが特徴的です。

最近では、X上で話題となった投稿のリプライ欄に「@grok ファクトチェック」と書き込み、投稿内容の真偽を検証させるリプライが急増しています。

xAIのEbby Amir氏は自身のXアカウントで、GrokでGrok Visionと、Voice Modeでの多言語音声とリアルタイム検索が可能になったと発表しました。

これらの新機能はすべてのiOSユーザーがGrokのアプリ上で利用できます。

また、AndroidではVoice Modeでの多言語音声とリアルタイム検索が利用できますが、SuperGrokに加入しているユーザーのみが対象とのことです。

Xには、Grok Visionが動作するようすを収めた動画が投稿されています。

AIがカメラの映像を見ながら音声でリアルタイムの会話ができる機能は、 OpenAIのChatGPTにはAdvanced Voice Mode GoogleのGeminiにはProject Astra という形で搭載されています。

xAIは、 ChatGPTが過去のすべてのチャット履歴を参照してパーソナライズされた回答を提供できるようになった わずか6日後に 同様の機能を発表する など、活発に新機能を追加しています。

おすすめアイテム

※このリンクを経由して商品を購入すると、当サイトの運営者が報酬を得ることがあります。詳細はこちら

このサイトを支援する

Buy Me a CoffeeまたはGitHub Sponsorsで支援していただけると、サイトの運営やコンテンツ制作の励みになります。定期的な支援と一度限りの支援がありますので、お間違いのないようにお願いします。

Buy me a coffee

著者のアイコン画像

生まれた時から、母国語よりも先にJavaScriptを使っていました。ネットの海のどこにもいなくてどこにでもいます。

Webフロントエンドプログラマーで、テクノロジーに関する話題を追いかけています。動画編集やプログラミングが趣味で、たまにデザインなどもやっています。主にTypeScriptを使用したWebフロントエンド開発を専門とし、便利で実用的なブラウザー拡張機能を作成しています。また、個人ブログを通じて、IT関連のニュースやハウツー、技術的なプログラミング情報を発信しています。

最新記事