LLMのメンバーシップ・プライバシー・リスク
2025年のEmpirical Methods in Natural Language Processingのカンファレンスにおいて、大規模言語モデルにおけるプライバシーの脆弱性について口頭発表の機会をいただき、大変嬉しく思います。
この投稿では、BraveのHongyan Chang、Ali Shahin Shamsabadi、Kleomenis Katevas、Hamed Haddadi、およびNUS(シンガポール国立大学)のReza Shokriによる研究を紹介します。
要約
大規模言語モデル(LLM)は、機密性の高い学習データを保持し、漏洩させる可能性があり、深刻なプライバシーリスクをもたらします。このようなデータ保持と情報漏洩を評価するために、私たちはCAMIA(Context-Aware Membership Inference Attack:文脈認識型メンバーシップ推論攻撃)を紹介します。これはLLMの生成的性質に特化した初めてのメソッドであり、従来のアプローチと比較して検出精度をほぼ2倍に向上させ、データ保持が実際にどのように発生しているかを明らかにします。
なぜLLMでプライバシーを気にする必要があるのか
LLMは、チャットボットや仮想アシスタントから検索エンジンや生産性ツールまで、私たちが日常的に使用する製品に組み込まれつつあります。この統合の流れに伴い、重要な疑問が生じます。これらのモデルは、学習に使用されたデータを意図せず漏洩させる可能性があるのでしょうか?
現実的に起こりうるシナリオを考えてみましょう。
- ヘルスケア:臨床記録が学習データの一部であった場合、モデルは誤って患者の機密情報を漏らしてしまう可能性があります。
- エンタープライズ:社内メールや文書が含まれていた場合、攻撃者はモデルを騙して私的なやり取りを再現させることができます。例えば、LinkedInは最近、生成AIモデル(LLMを含む)の改善にユーザーデータを使用する計画を発表しており、社内コミュニケーションや非公開コンテンツが生成された出力に現れる可能性があるのではないかという懸念が高まっています。
- 教育とメディア:試験問題や有料コンテンツが学習データに含まれていた場合、モデルはそれらを一字一句そのまま再現してしまう可能性があります。
これらのリスクは個人ユーザーだけでなく、規制、倫理、評判上の利害関係に直面する組織にとっても重要です。プライバシー侵害は、データ保護法や著作権規則に違反したり、導入されたAIシステムへの信頼を損なったりする可能性があります。
LLMのプライバシーリスクはどのように評価できるのか
メンバーシップ推論攻撃(MIA)は、特定のデータポイントが学習データセットの一部であったかどうかをテストすることで、モデルのデータ保持を評価するように設計されています。簡単に言えば、攻撃者は「このモデルは学習中にこの例を見たか?」と問います。その答えが確実に推測できる場合、モデルは学習データに関する情報を漏洩しており、これは直接的なプライバシーリスクとなります。
核心となる直感は、機械学習モデルが学習サンプルと未知のサンプルに対して異なる振る舞いをすることが多いということです。これらの振る舞いの違いは、損失値、信頼度スコア、予測の安定性、またはその他のモデル出力に現れる可能性があります。MIAはこれらのギャップを体系的に利用します。攻撃者がこのようなシグナルに基づいてメンバーと非メンバーを区別できる場合、それはモデルが学習データを保持し漏洩していることを示しています。
これを考える一つの方法は、仮説検定として捉えることです。
- H₀: Bobのレコードはトレーニングに使用されていない。
- H₁: Bobのレコードはトレーニングに使用された。
攻撃者はBobのレコードでモデルを調査し、その振る舞いを観察することで、どちらの仮説がより可能性が高いかを判断しようとします。モデルの応答がこの情報を明らかにしてしまう場合、学習データのメンバーシップが推測可能であることを意味し、具体的なプライバシーリスクが露呈します。
LLMのプライバシーリスク測定における課題
メンバーシップ推論の単純な実装例は損失閾値攻撃であり、サンプルに対するモデルの損失が事前定義された閾値を下回る場合、そのサンプルをメンバーとして分類します。この基本的な手法は多くの状況で機能しますが、より高度なMIAは、出力エントロピー、予測のダイナミクス、シャドウモデルなど、モデルの振る舞いのより多様な側面を調査し、より強力な推論を実現します。
LLMの文脈では、単純な適応方法として、対象となる文に対するモデルの損失を計算することが挙げられます。損失が非学習テキストと比較して異常に低い場合、その文が保持されている可能性があることを示唆します。このような素朴な適応方法でも漏洩を明らかにすることはできますが、LLMに適用する場合には不十分です。
これは、ほとんどのMIAがもともと分類モデル向けに設計されており、分類モデルは入力ごとに単一の予測を出力するためです。しかし、LLMは生成的です。トークンごとにテキストを生成し、各予測は先行するすべてのトークンの接頭辞に条件付けられています。この逐次的な構造により、データ保持は文脈依存となり、単にシーケンス全体の損失を集約するだけでは、漏洩を引き起こす重要なトークンレベルのダイナミクスを見逃してしまうことを意味します。
上に表示されている例を考えてみましょう。
- 接頭辞が既に強い手がかりを含んでいる場合(例えば「Harry Potter is…written by… The world of Harry…」)この場合モデルは次のトークン「Potter」を確信を持って予測します。ここで損失が低くなるのは、モデルが訓練インスタンスを記憶したからではなく、接頭辞が十分な文脈を提供しているためです。
- 対照的に、接頭辞が単に「Harry」だけの場合、「Potter」を予測するには記憶された訓練シーケンスへの依存度がはるかに高くなります。この場合、モデルの低い損失はメンバーシップのより強い指標となります。
私たちの手法:CAMIA(文脈認識型メンバーシップ推論攻撃)
私たちの重要な洞察は、LLMにおける記憶は文脈に依存しているということです。
- 接頭辞が明確な手がかりを提供する場合、例えば、繰り返しや次のトークンとの強い重複を通じて、モデルは記憶に頼ることなく推測することができます。
- 接頭辞が曖昧または複雑な場合、モデルは不確実になり、このような場合には記憶された訓練シーケンスに頼る可能性が高くなります。
したがって、効果的なメンバーシップ推論攻撃は、シーケンス全体の損失のみに依存するのではなく、文脈がトークンレベルでの予測の不確実性をどのように形成するかを明示的に捉える必要があります。
これに対処するため、私たちはCAMIA(文脈認識型メンバーシップ推論攻撃)を導入しました。これは、テキスト生成中に不確実性がどのように変化するかを追跡する新しいアプローチです。CAMIAは以下のことができます。
- 接頭辞全体で不確実性がどれだけ速く解消されるかを測定し、モデルが「推測」から「確信を持った想起」へと移行するタイミングを明らかにします。
- 繰り返しや単純なパターンによって不確実性が人為的に減少するケースを調整します。
- 単一の静的な損失閾値に依存するのではなく、トークンレベルで動作します。
これらの文脈的なダイナミクスに焦点を当てることで、CAMIAは従来のMIAでは検出できなかったLLMにおける記憶行動を明らかにします。
結果
MIMIRベンチマークにおいて、6つのPythia(70M~12Bパラメータ)およびGPT Neo(125M~2.7Bパラメータ)モデルと、Web、Wikipedia、医療、ニュース、数学、Arxiv、GitHubを含む6つのドメインにわたって、CAMIAは既存の手法を一貫して上回る性能を示します。
CAMIAは効果的です。ArXivデータセット上のPythia 2.8Bに適用した場合、偽陽性率を1%に保ちながら、真陽性率を20.11%から32.00%に向上させます(より高いTPRとより低いFPRは、より優れた攻撃性能を示します)。
CAMIAは計算効率に優れています:メンバーシップシグナルの計算と合成のみを必要とします。単一のA100 GPUを使用してArxivデータセットから1,000サンプルを評価する場合、CAMIAは約38分で完了します。
CAMIAはオープンソースです
CAMIAは、2025年自然言語処理における経験的手法に関する会議(EMNLP 2025)で口頭発表として採択され、優秀論文賞にノミネートされています。CAMIAは2025年11月4日から9日の間、中国・蘇州で開催される会議で発表される予定です。
CAMIAはまた、オープンソースとして公開されています。