プライバシーアップデート

STAR:プライバシーを保護したままデータを収集するBraveの新システム

Braveプライバシーチーム寄稿

この記事は、Braveの新しいプライバシー機能および今後のプライバシー機能について紹介する、継続的かつ定期的なシリーズの19回目の記事です。この投稿は、Alex Davidson、Peter Snyder、eV Quirk、Joseph Genereux、Benjamin Livshits、およびHamed Haddadiによる作業について紹介します。この投稿は、プライバシーシニアディレクターのPeter Snyderが執筆したものの日本語訳です。

Braveの研究者は、同じ回答が複数のユーザーから送信された場合にのみ、データの解読可能になる暗号化手法を用いた、プライベートなデータ収集システム “STAR1” を開発しました。ユーザーのプライバシーを保護しつつ、ソフトウェアのWebスケールを計測、分析、測定などを行う上で、このようなシステムの存在はとても重要になります。

STARの主な目的は、強力なプライバシー保護を提供しながらも、中小規模の企業でも使用可能で、かつ手頃な料金で利用できるようにすることです。既存のシステム2は、導入コストが非常に高い(大企業でしか利用できない)、サードパーティや特殊なハードウェアを必要とする、有用な結果を得るために数百万のユーザを必要とする、などの問題があります。これに対してSTARは、既存システムと同等以上のプライバシー保証を提供し、数十人から数百万のユーザーを対象とするプロジェクトや組織で実用的かつ手頃な料金で利用することが可能です。

STARシステムは、ロサンゼルスで開催される2022年のACM Conference on Computer and Communications Security(CCS)で発表される予定で、IETFでの標準化の可能性についても議論されています。STARはRustで実装されたオープンソースであり、現在および将来の多くのBrave製品でユーザーのプライバシー保護に利用される予定です。

k-匿名性によるプライバシー保護されたデータ収集

ソフトウェアがどのように使用されているかというデータを詳細に収集することは、開発者とユーザーの両方にとって有益です。開発者はこの情報を使ってバグを修正し、コードを最適化することができ、ユーザーはより良いソフトウェアの恩恵を受けることができます。

しかし、ユーザーデータを収集することは、プライバシーを保護する方法でデータを収集しなければならないという倫理的、また時として法的な責任を伴うこととなります。私たちは、プライバシーを保護する方法でデータを収集することは、データ収集の倫理として必要であるにも関わらず、現時点では十分ではないと考えています。データ提供においては、ユーザーがコントロール可能であり、データの提供を認識している必要があります。

Braveの新システムSTARは、ユーザーが投稿したデータが一意(オンリーワン)でないことを保証することで、ユーザーのプライバシーを保護します。この特性はk-匿名性と呼ばれ、データ収集者は、同じ値が他のユーザーからも投稿されている場合にのみ、投稿された値を見ることができます。K-匿名性(つまりSTARシステム)は、データ収集者が一意な値を見ることができないようにすることで、収集された情報からユーザーを特定することを防ぎます。

K-匿名性とは、データ収集時のプライバシーを確保するための数多くのアプローチの一つで3、それぞれ長所と短所があります。STARがk-匿名性を採用する理由は、以下の通りです。

  • プライバシーへの配慮をわかりやすく体現しています。
  • データ収集者は、大規模なユーザー基盤を必要とせずに、最も一般的に共有されている値(heavy hitters)を見つけることができます。
  • STARは、過去にk-匿名性システムが用いられたケースとは異なる目的での使用方法をターゲットとしています。

簡単なk-匿名性の例:アイスクリーム

k-匿名性によってユーザーのプライバシーが守られる例として、次のような例を考えてみます。

ある組織が、従業員の好きなアイスクリームの味を知りたいと考えています。しかし従業員は、自分が投票したかどうかは組織からはわからないと保証されていなければ、このアイスクリームに関する調査に参加したくありません。参加者は匿名性を求めているのです。

チョコレート、バニラ、ストロベリーなどの一般的な味に投票した人は、多くの人がこれらの味が好きなので問題ありません。一般的な味に投票した場合、組織は誰が投票したかを知ることはほとんどできないのです。

しかし、一般的でないアイスクリームの味に投票すると、その回答をした人が特定されるリスクがあります。もし、ある人の好きなアイスクリームのフレーバーがオリーブであることを誰もが知っていて、その人がアンケートに答えていれば、組織は誰がその答えを提出したかについてかなり確信を持つことができるのです。

k-匿名性では、データを分析する前に「オリーブ」の回答が削除されます。

k-匿名性とは要するに、上記のアイスクリームの例を基にしたデータ収集のアプローチです。データを収集する側は、一般的で人気のある値を見ることができますが、希少な故に潜在的に識別可能な値は見ることができません。

K-匿名性の実用化は難しい

K-匿名性は概念的には単純ですが、実際にシステムを構築するのは難しいのです。例えば、そもそも潜在的に識別可能な値を明らかにすることなく、どの値が一般的か希少かを誰が(そしてどのように)決定できるでしょうか。

最適でない選択肢としては、データ収集者と値を共有する前に、中立的な第三者に値をカウントさせる方法があります。しかし、これはデータ収集者の代わりに第三者にプライバシーを委ねるという “shell game” を導入するだけであり、プライバシーリスクは払拭されません。

実世界でk-匿名性システムを実装しようとすると、他にも多くの類似した困難があります。

STARでは、このような最適とは言えない検証を行わずにk-匿名性を実現する方法を見いだしました。

STARは、安価でセキュアにk-匿名性を実現します。

STARは、k-匿名性を用いたデータ収集システムを実用的、効果的、かつ安価に構築します。STARは既存のシステムとは異なり、以下に記載した目標を達成する最初のシステムです。

安価に配備:STARは非常に高速ですが、特別なハードウェアを必要としません。STARは、趣味のような小規模プロジェクトから、数百万人が利用する大規模なソフトウェアプロジェクトまで、あらゆるものに導入することが可能です。我々のシミュレーションでは、STARは既存のアプローチ4に比べ24倍のコスト削減が可能です。

わかりやすさ:STARは、すでに認識されている検証済みの既存暗号ツール(データを暗号化する対称暗号、k-匿名性を強制するShamir秘密分散法、ランダム性を高める検証可能なオブリビアス疑似ランダム関数など)を独自の方法で組み合わせて使用しています。新たな暗号要素を用いるのではなく、既存の暗号ツールを使用することは、より多くの人がSTARシステムを安全に実装、デプロイ、監査できることを意味します。

強力なプライバシー保証:STARは、サーバーが危険にさらされた場合のフォールバックプロテクションなど、既存の最先端システムと同等またはそれ以上のプライバシーを提供します5

少ないユーザー数でも的確な結果を出す:STARは、少数のユーザーであっても強い精度を保証します。これは、数千、数百万人のユーザーが結果を寄稿した場合にのみ正確な結果を得られる他の既存のアプローチ6とは異なります。

特別なハードウェアを必要としない:STARは標準的なコンピューティングハードウェア上で動作するため、個人のサーバー、スタンダードなクラウドインフラ、その他様々なハードウェアに導入することが可能です。これにより、STARはより多くのプロジェクト、特に予算が少ないプロジェクトで利用することができます(AWS NitroIntel SGXのような特別な「信頼できる」ハードウェアに依存する既存のシステムとは異なります)。

ユーザープライバシーを守るためにSTARを使用する

Braveは、ユーザーのプライバシーを向上させるための実用的で現実世界で使用するシステムとして、STARを開発しました。STARは、他のユーザー/プロジェクトがプライバシーを保護するために使用することを想定していますが、当初の目的は、ユーザーがプライバシーを維持したままBraveとデータを共有できるようにすることです。

そのために、BraveはSTARにおいて3つの点を重要視しています。

1点目:Braveは、データ収集を許可するオプションをユーザーが選択できる場合、STARを自社プロダクトで使用します。例えば、BraveのWeb Discovery Projectでは、STARのフォームを利用して、ユーザーからの情報をBrave Searchのインデックスを構築するために役立てています。同様に、ユーザーがブラウザの使用データをBraveに共有する「Privacy Preserving Product Analytics(P3A)」システムにもSTARを組み込んでいます。

ここで重要なことは、STARによる保護があったとしても、BraveのユーザーはBraveとデータを共有しない選択肢を常に持っていることです。STARは、ユーザーが共有したいデータにプライバシー保護機能を加えることのみを目的としており、Braveがユーザーに関するデータをより多く収集することを目的としたものではありません。

2点目:BraveはSTARをオープンに開発しており、他のプロジェクトが自由に使用、採用、変更できるようにしています。BraveはSTARのRust版WASM版 の両方を保守しており、どちらもMozilla Public License v2で公開されています。

3点目Privacy Preserving Measurementsワーキンググループの一員として、Internet Engineering Task Force(IETF)においてSTARの標準化に取り組んでいます。私たちの目標は、小規模な組織がプライバシーを尊重した方法でデータを収集するためのスタンダードな方法を確立することです。

STARの仕組みと、安全かつ効率的にk-匿名化保護を実現する方法の詳細について詳細は、こちらの論文をご覧ください。


  1. STARとは、Secret sharing for private Threshold Aggregation Reportingの略で、「プライベートな閾値からの集約レポート」を意味します。 ↩︎

  2. MozillaのPrioやGoogleのProchloのようなシステムです。 ↩︎

  3. その他、差分プライバシー(ローカル、その他)、ランダム化応答、マルチパーティ計算、ホモモルフィック暗号に基づくアプローチなどがあります。 ↩︎

  4. 具体的には、IEEE S&P 2021のBonehらによる「Lightweight Techniques for Private Heavy Hitters」で紹介されているPoplarシステムです。 ↩︎

  5. 具体的には、VOPRF サーバは、送信された値を見ることはありませんが、悪意のある(または誤った)ケースで、ランダム性を提供することに失敗する可能性があります。 ↩︎

  6. 例えば、ユーザーを保護するためにlocal differential privacyに依存するシステムなどです。 ↩︎

Related articles

リクエストOff the Record

リクエストOTRは、一般ユーザーのプライバシーニーズをサポートするBraveの機能の一つで、ブラウザが一般的に検知する標準的な脅威のさらに先まで保護します。

この記事を読む →

Braveで新しいWebを体験する準備はできましたか?

Braveはプライバシーとパフォーマンスを重視するWebのパイオニアからなるチームによって開発されています。Braveを利用しWebの再構築に協力していただけませんか?