スクリーンショットに隠されたプロンプト・インジェクション:Cometやその他AIブラウザの新たな脆弱性
エージェント型ブラウザにおけるセキュリティとプライバシーの課題に関するシリーズの第2弾です。この脆弱性研究は、Artem Chaikin(シニアモバイルセキュリティエンジニア)によって実施され、ArtemとShivan Kaul Sahib(プライバシー・セキュリティVP)によって執筆されました。
Perplexity Cometの脆弱性に関する以前の報告に基づき、私たちはエージェント型ブラウザ全体にわたるセキュリティ研究を継続してきました。私たちが発見したことは当初の懸念を裏付けるものです。間接的プロンプト・インジェクションは単一の問題ではなく、AI搭載ブラウザというカテゴリ全体が直面する体系的な課題です。この投稿では、私たちがさまざまな実装においてテストした追加の攻撃手法を検証します。
なお、別のブラウザで発見された追加の脆弱性1件については、現時点では公開を控えています。来週、詳細を提供する予定です。
以前もお伝えしたように、ユーザーの代わりに操作を実行できるAI稼働ブラウザは強力である一方、極めてリスクが高いものです。もしブラウザで銀行やメールプロバイダーなどの機密性の高いアカウントにログインしている場合、単にRedditの投稿を要約するだけで、攻撃者があなたの金銭や個人データを盗むことが可能になる可能性があります。
いつものように私たちは脆弱性が対処されるよう、以下に記載されているさまざまな企業に責任を持って問題を報告しました。以前にもお伝えしましたが、より安全なWebは全ての人に対してプラスになります。このシリーズの前回のブログ投稿によって提起された、安全なエージェント型AIに関する思慮深い論評と議論が、私たちの研究を継続し、その発見を公表するという決断の動機となりました。
Perplexity Cometのスクリーンショットにおけるプロンプト・インジェクション
Perplexity Cometアシスタントでは、ユーザーがWebサイト上でスクリーンショットを撮り、それらの画像について質問することができますが、これらのスクリーンショットを使うと、従来のテキストベースの検証では防げないプロンプト・インジェクション攻撃が可能になります。画像内にほとんど目視できないテキストとして埋め込まれた悪意のある指示が、信頼できないコンテンツとして対処されず、コマンドとして処理されてしまいます。
攻撃手法:
- 準備: 攻撃者は、人間には見えにくい悪意のある指示をWebコンテンツに埋め込みます。私たちの攻撃では、黄色の背景に薄い水色のテキストを使用することで、プロンプト・インジェクションの指示を画像内に隠すことができました。これは、悪意のある指示がユーザーから事実上見えなくなっていることを意味します。
- トリガー: ユーザーが、カモフラージュされた悪意のあるテキストを含むページのスクリーンショットを撮影する。
- 注入: テキスト認識により、人間にはわからないテキストが抽出されます(おそらくOCRによるものと考えられますが、Cometブラウザはオープンソースではないため確実なことは言えません)。この抽出されたテキストは、ユーザーのクエリと区別されることなくLLMに渡されます。
- 悪用: 注入されたコマンドは、AIにブラウザツールを悪用するよう指示します。
攻撃のデモ:
FellouブラウザのWebサイト・ナビゲーションを用いたプロンプト・インジェクション
Fellouブラウザは目視できない指示を用いた攻撃に対してある程度の耐性を示したものの、依然として可視的なWebページのコンテンツを信頼できる入力としてLLMで扱っています。驚くべきことに、ブラウザにWebサイトへ移動するよう単に依頼するだけで、ブラウザがそのWebサイトのコンテンツをLLMに送信してしまうことが判明しました。
攻撃手法:
- 準備: 攻撃者が自分のWebサイトにはっきりと目視できる悪意のある指示を埋め込みます。
- トリガー: ユーザーがAIアシスタントに攻撃者のWebページの表示を指示する(要約を指示する必要はありません)。
- 注入: ブラウザはユーザークエリとページコンテンツの両方をLLMに渡しますが、Webページのテキストがユーザーの指示を上書きまたは変更できるような形でLLMに渡します。
- Exploit: 注入されたコマンドは、AIにブラウザツールを悪用するよう指示します。
攻撃のデモ:
開示までのタイムライン
Perplexity:
- 2025/10/1: スクリーンショットにおけるプロンプト・インジェクションを発見し、Perplexityへ報告。
- 2025/10/2: Perplexityへ一般公開の通知を送付。
- 2025/10/21: 脆弱性詳細の一般公開。
Fellou:
- 2025/8/1: Webサイト・ナビゲーションを用いたプロンプト・インジェクションを発見し、Fellouへ報告。
- 2025/10/21: 脆弱性詳細の一般公開。
インパクトと影響
以前のブログ投稿で述べたように、AIエージェントがユーザーに代わって行動する際、これまでのWebセキュリティの前提が崩れます。エージェント型ブラウザアシスタントは、悪意のあるWebページコンテンツによってプロンプト・インジェクションが行われる可能性があり、アシスタントがユーザーの認証済み権限で実行されてしまうため、同一オリジンポリシーなどの保護機能が無効となってしまう場合があります。この手法により、Webサイト上の単純な自然言語の指示(あるいは単なるRedditのコメント)が、銀行、医療機関のサイト、企業システム、メールホスト、クラウドストレージに到達するクロスドメインアクションを引き起こすことができてしまうかもしれません。
エージェント型ブラウジングの脆弱性に共通するテーマ
この投稿を読んでいる方は、これらの攻撃が似ていることに気づくでしょう。根本的には、ブラウザがユーザーに代わって強力なアクションを実行する際、LLMプロンプトを構築する過程で信頼できるユーザー入力と信頼できないWebコンテンツの間に明確な境界を設けられていないことが問題なのです。
この問題が、すぐに解決するのが難しい問題であることは認識しており、このような問題に対処するためリサーチチームおよびセキュリティチームが共同で検討している長期的なアイデアがいくつかあります。しかし、抜本的な安全性の改善(つまり、ブラウザ全体にわたる改善)が実現するまで、エージェント型ブラウジングは本質的に危険であり、そのように扱われるべきです。それまでの間、ブラウザはエージェント型ブラウジングを通常のブラウジングから分離し、ユーザーが明示的に呼び出した場合にのみエージェント型ブラウジングのアクション(Webサイトを開く、メールを読むなど)を開始すべきです。
このシリーズの次の投稿では、1億以上のユーザーに対して、エージェント型ブラウジングをより安全に提供するためのBraveの計画について紹介する予定です。

