チーフサイエンティスト Ben Livshits博士
Braveリサーチの目標は、Braveブラウザやエコシステムのニーズや野心的な取り組みを限界を超えて実現することです。Braveリサーチでは研究者と開発者が精力的に活動しています。メンバーの大半がコンピューターサイエンスの博士号を取得していますが、極めて実務的な業務を行い日常的にコードを書いています。Braveリサーチのミッションは大きく分けて2つあります。1つ目は「特殊部隊」として、比較的研究が進んでいない分野でBraveにとり価値のある問題に取り組むこと。2つ目は、論文という形で研究成果を生み出し、それを一流の最先端のカンファレンスで発表することです。学界とも密接に連携しています。博士号を持つインターンや大学教授とBraveの研究者が協力することで、特にプライバシー、セキュリティ、エッジ上の機械学習、分散化などの分野で最先端の技術を発展させることを目指しています。
Braveリサーチが扱うテーマは多岐にわたっています。機械学習、データのプライバシーとセキュリティ、パフォーマンス、暗号化などはその一部でしかありません。ブラウザから生じる現実的な問題に対処しているため、大半の業務は実際的かつ偶発的なものになっています。また、コードが複雑であることやBraveとして取り組むべき未解決問題の数が多いことから、今後も難題に取り組み続けていきます。
本記事では、ブログ記事やカンファレンスで最近発表した実績の一部をご紹介します。このご紹介を通じて、Braveリサーチが取り組んでいるテーマの多様性と、Braveブラウザの機能との関係性をお伝えしたいと考えています。研究発表のさらなる詳細については、/research/をご覧ください。
プロダクト主導のイノベーション
具体的なプロダクトニーズに基づいたプロジェクトの例を2つご紹介します。BATの広告エコシステムに関する例とブラウザそのものに関する例です。
THEMIS:Braveの広告エコシステムの分散化
最近、Braveの広告システムの分散化に関する特集記事をブログ上でご紹介しました。暗号通貨とブロックチェーンの技術をうまく活用して、広告主やブラウザのユーザーが広告関連の会計の完全性を確認できるようにしたシステムです。部分的な準同型暗号化方式やゼロ知識証明を含む興味深い暗号化プリミティブに、分散鍵生成などの伝統的な技術を組み合わせることでThemisと呼ぶプロトコルを設計・開発しました。完全版のプレプリントはArxiv上でご覧いただけます。
SpeedReader
SpeedReaderに関する論文をWWW ’19( The World Wide Web Conference 2019)で発表しました。Braveブラウザのリーダーモード(簡易表示)機能を改良しレンダリングの高速化とネットワークフットプリントの軽量化を実現しています。このたび研究者、開発者、デザイナーの多大な尽力によって、SpeedReaderがBraveのベータ版に実装されました。SpeedReader の詳細については、こちらのブログ記事をご参照ください。またブラウザのURLバーの横にあるアイコンをクリックするとSpeedReaderをお試しいただけます。SpeedReaderは、研究からプロダクトの完成までに時間がかかりましたが、最近の最もわかりやすい事例となっています。ほかにもBraveAd関連の機械学習モデル周辺の開発もよいプロダクト開発事例となっています。
学術論文
ここからは、トップカンファレンスで発表された(あるいは発表される予定の)最近の代表的な学術論文をご紹介します。
IEEE S&P 2021:イベントループターンごとのJavaScriptシグネチャを用いたフィルタリスト回避の検出 (論文)
Braveがウェブ上のプライバシーを向上するために使用する主要な手段の一つとしてトラッカーのブロッキングがあります。Braveは、広告やトラッカーを発見する方法としてクラウドベースで専門家が作成したフィルタリスト(EasyList、EasyPrivacy、uBlock Originのリストなど)を使用することがあります。この方法は便利ではありますが、些細な手法で回避されてしまいます。例えば、リソースを新しいサーバーに移動する、ファイル名やURLパス属性を変更する、ページ内のコードをインライン化する、トラッキングコードを無害なJavaScriptと組み合わせるといった手法です。こういった手法はよく知られているにもかかわらず、プライバシー保護派の間でもウェブ全体を保護するための有効な手段を持ち合わせていませんでした。
本論文では、こうしたコンテンツブロッキングにおける問題に、以下のような手順で対処しています。第一に、BlinkとV8ランタイムを使いイベントループターンごとにJavaScriptコードのシグネチャを構築する新しいシステムを開発しました。第二に、このシグネチャを利用してフィルタリスト回避を把握します。つまりEasyListやEasyPrivacyを検証データとし、同様の動きをするコードを見つけます。その結果、フィルタリストがブロックした11,212個のスクリプトから、プライバシーとセキュリティ動作に関するシグネチャを200万個弱作成しました。そのシグネチャを使い同等の有害コードを含む3,589個のスクリプトを新たに発見しました。この有害コ―ドは測定したウェブサイトの12.48%に存在していました。第三に、フィルタリストの一般的な回避テクニックを分類しています。論文の最後では、回避への対策を提案しています。可能な限りフィルタリストの追加、そうでない場合はシグネチャーベースのシステムの適用を提案しています。
このプロジェクトの一環として、シグネチャ生成システム、Alexaの上位10万サイトに本システムを適用して得られたデータ、ブロックされたコードを新しいURLに移動させるインスタンスを妨害する586のフィルタルール(AdBlock Plusコンパチブル)を公開しております。
SIGMETRICS 2020:フィルタリストのフィルタリング-クラウドベースの広告ブロックリストの肥大、有効性、効率性について(論文)
広告ブロックやトラッキングブロックの拡張機能は、ウェブのパフォーマンス、プライバシー、見た目が改善できることからよく利用されています。またコンテンツブロックの拡張機能では、トラッキングや広告に関連するウェブリクエストのブロック判定にフィルタリストを利用することが一般的です。よって何百万人ものネットユーザーは、プライバシーを保護し閲覧体験を改善するためにフィルタリストに依存していることになります。その重要性にもかかわらず、フィルタリストの肥大と健全性の問題については十分に理解されていません。フィルタリストは限られた人々が管理しており、フィルタリングルールの採択はドキュメント化されておらず経験や直感で運用されています。フィルタリングのルールはリスト内に急速に蓄積されてく一方、削除されることはほぼありません。そのため古くて使えなくなったり有効でなくなったルールが有効なルールよりもはるかに増えてしまい、ユーザーの閲覧体験が損なわれています。重いルールが蓄積すると、リソースに制約のあるモバイルデバイスでフィルタリストを適用することが難しくなります。
本論文では、クラウドベースのフィルタリストの理解を深めるために、最も一般的なフィルタリストであるEasyListを調査しています。10,000のウェブサイトにEasyListを適用し、ウェブ閲覧にどのような影響があるかを検証しました。その結果、一般的なユーザーの閲覧シナリオでは、EasyListのリソースブロックルールのうち90.16%は何の効果もないことがわかりました。 論文の最後では、一般的な広告ブロックツールの最適化を提案しています。この最適化によって、(1) パフォーマンスに制約のあるモバイル・デバイスにEasyListを適用することが可能になり、(2) 99%以上のブロック・カバレッジを維持しながら、デスクトップ・パフォーマンスを62.5%向上させることができます。こうした最適化は英語圏以外のユーザー、特に補助的なフィルタリストを使用して広告ブロックとプライバシー保護を実現しているユーザーに最も効果があるだろうと考えています。
MLSys 2020: プライバシー保護バンディット(論文)
Braveは、プライバシーを重視した機械学習技術を研究しています。主にクライアント側における広告マッチングの質の向上を目指しています。コンテキストベースのバンディットアルゴリズム(CBA)は、一般的に個人情報を利用してレコメンデーションを行います。中央集権型のCBAエージェントは、直近の接触から機密情報を含む可能性のある情報を取得しパーソナライゼーションを実現します。ユーザーのデバイス上でローカルエージェントを実行することで、機密情報をローカルにとどめユーザーのプライバシーを保護することが可能です。しかし、このエージェントは他のユーザーからフィードバックを得られないため、有用なレコメンデーションの生成に時間がかかります。
本論文では、プライバシー保護バンディット(P2B)と呼ばれる手法を提案しています。これは、他のローカルエージェントからのフィードバックを集めて差分プライバシーで更新する手法です。このアプローチを、非プライベートなシステムと完全にプライベート(ローカル)なシステムで実施して比較したところ、合成ベンチマークでも現実のデータにおいても同等の性能でした。具体的には、マルチラベル分類の精度はそれぞれ2.6%と3.6%の低下にとどまり、プライバシー予算ε≒0.693でオンライン広告のCTRは0.0025の増加にとどまりました。これらの結果から、P2Bはオンデバイスのプライバシー保護型パーソナライゼーションで生じる課題解決手法として有用であることが示唆されました。
CHI 2020: プライベートモードのユーザーの閲覧体験の評価(論文)
本調査は、ブラウザの利用者がプライベートモードがもたらす保護機能をどのように解釈し、この機能の意味をよりよく伝えるために何が必要かを明らかにするべく始めました。この論文では、プライベートモードの利点と限界についてユーザーが誤認する原因を調査しています。
3つの調査を設計・実施しました。(1)複数のブラウザのプライベートモードのユーザーインターフェースの分析評価、(2)プライベートモードで閲覧する際のユーザーの心理状態を把握する定性調査、(3)現在のブラウザのディスクロージャーやブラウザ内のプライベートモードの説明が、実際のプライベートモードの保護機能について伝えられていない理由を探る参加型調査です。また複数のブラウザでは、プライベートモードのユーザーインターフェースが、確立されているデザインガイドラインや経験則を満たしていないこともわかりました。
また、参加者の大半はプライベートモードに対し誤ったメンタルモデルをもっており、そのことがプライベートモードの理解や利用方法に誤解を生じさせていました。さらに既存のブラウザでは、プライバシーモードのセキュリティ目標が開示されていないことも分かりました。こうした調査結果をもとに、情報開示の改善方法を提案しています。
IEEE S&P 2020:広告グラフ-グラフを使用した広告ブロックやトラッキングブロック手法(論文)
オンラインで広告やトラッキングをブロックしたいというユーザーの要望は大きく、拡大を続けています。既存のツール(実用化されているものや研究されているもの)には有用性があることは判明していますが、広く利用されるために必要な完全性や堅牢性に欠けています。既存の検出手法は、一般的に広告やトラッキングの一要素(例えばURLパターン、コード構造など)だけに焦点をあてているため回避されやすいからです。
本論文では、グラフを使ってネット上の広告やトラッキングリソースを検出する新しい機械学習手法、AdGraphを紹介しています。AdGraphは既存のアプローチとは異なり、WebページのHTML構造、ネットワークリクエスト、JavaScriptの動作をグラフで表現します。この独特の表現をベースに広告やトラッキングリソースを識別するClassifier(分類器)を訓練します。AdGraphはネットワークリクエストで発生するコンテキストの複数の側面をとらえるため、既存の手法に比べると一要素を対象にした回避技術では回避されにくくなっています。
Alexaの上位1万サイトでAdGraphを適用したところ、極めて高い精度をもつことがわかりました。人間が生成したフィルタリストのラベルを95.33%の精度で再現し、フィルタリストの誤りを多数識別しました。AdGraphをChromiumを変更して実装しました。その結果、AdGraphはページの読み込みや実行にわずかな負荷を与えつつも、標準のChromiumよりも42%のサイトで処理速度が速くなりました。またAdBlock Plusと比べても78%のサイトで速くなりました。
全体的に見て、AdGraphはオンライン使用に耐えうる十分な精度と性能を備えており、一般的なフィルタリストの使用と比較しても、サイトの見落としもほぼそん色ない水準であると言えます。AdGraphはすでに、広告ブロッキングを改善するプロジェクトや、ネットをクロールした結果の理解を改善するプロジェクトで基礎技術として利用されています。
Usenix ATC 2020: Percival- ディープラーニングを使用したブラウザ内における知覚ベースの広告ブロックの実用化(論文)
広告をブロックするためにいくつかのテクニックが提案されていますが、その多くがフィルタリストや人が書いたルールに基づいたものになっています。典型的な広告ブロックは手作業で作成されたブロックリストに依存していますが、ブロックリストは必ず陳腐化してしまうため、この手法では究極的には実用性が担保できてないといえるでしょう。この論文では、ブラウザ組み込みでディープラーニングを利用した軽量な広告ブロッカー、 PERCIVAL を紹介します。
PERCIVALはブラウザの画像レンダリングのパイプライン内に組み込まれています。そのため、ページ表示中に得られる全ての画像を取得し、機械学習による画像分類を用いて広告画像にフラグを立ててブロックすることが可能です。ChromiumとBraveブラウザに実装した結果、レンダリングパフォーマンスのオーバーヘッドは4.55%と比較的小さく、従来の重たかったモデル(ディープニューラルネットワークなど)と同等の機能をブラウザのレンダリングエンジンのクリティカルパス内に実装することが可能であることが実証されました。
この画像認識をベースとした広告ブロックで、EasyListルールを96.76%の精度で再現できます。PERCIVALのアプローチの汎用性を示すために、PERCIVALが(1)英語以外の言語の広告で驚くほど優れた性能を発揮すること、(2)他の広告ブロッカーでは問題となっていたFacebookのファーストパーティ広告のブロックでもPERCIVALが優れた性能を発揮することを、ケーススタディを使い示しています。PERCIVALによって、画像認識ベースの広告ブロックが既存のブロックリスト方式を補完する魅力的なアプローチであることが証明されています。
WWW 2020: 限定公開:ネット上のペイウォールの普及とその意義の理解(論文)
私たちの活動がオンラインパブリッシャーへの報酬に力点をおいているため、ネット上のペイウォールの仕組みをよく理解する事が重要です。オンライン広告は、コンテンツ提供者にとり最も一般的な収益化の方法ですが、周知の通りパフォーマンスとプライバシーに問題が多いことに加え、複雑なプリンシパル=エージェント問題があります。つまり、ユーザーが広告を拒否すると、サイトの資金源が失われてしまいます。
広告収入にはこうした問題があるため、代替手段としてのペイウォールが人気を集めています。この「お金を支払ってアクセスするウェブ」への移行は、ネットや社会に大きな影響があるでしょう。ペイウォールが作るシステムでは、(名目上)自由に情報が得られるのではなく、質の高い情報を少数のユーザーが利用し、他のユーザーは少量の情報、場合によってはより不正確で質の低い情報のみを得ることになります。「広告と共存するオープンなウェブ」から「ペイウォールウェブ」への移行は極めて重大なものとなる可能性があります。それにもかかわらず、この問題は十分に研究されていません。本論文では、ペイウォールがどの程度普及しているのか、どのようなサイトが導入しているのか、どのようなポリシーが適用されているのかを把握することで、ペイウォールに関する理解を深めようとしました。
調査結果の一部をご紹介します。(1)ペイウォールの利用は加速的に増加しています(6 ヶ月ごとにペイウォールサイト数が 2 倍に増加)(2)ペイウォールの導入率は国によって異なります(例:米国 18.75%、オーストラリア 12.69%) (3)ペイウォールを導入すると、ユーザーのサイトへのアクセス行動が大きく変化します(例:直帰率が上昇、リファラル流入が減少)(4)ペイウォールの年間利用料の中央値は、1サイトあたり108米ドルでした(5)一般的にペイウォールは容易に回避可能でした。論文の最後では、ペイウォールを使用しているサイトをを自動検出する新しいシステム設計を紹介しています。ブラウザのランタイム測定とプログラムベースでサイト接触を繰り返す手法を組み合わせています。このツールは今後、ペイウォールの利用と動きを長期的に測定する際に補足的に使用されるものになります。
WWW 2020: フィルタリスト未整備地域に向けたリスト生成(論文)
フィルタリストがネットユーザーを保護し手助けする上で果たす役割はますます大きくなっています。一般的にフィルタリストの大部分はクラウドソース化されています。ブラウザや拡張機能が望ましくないウェブリソース(広告、トラッカー、ペイウォールライブラリなど)をブロックできるようするためには、多くの人手をかけて関連するものにラベルをつけています。ただ、フィルタリストの構築に貢献しているネットユーザーは比率でいうとごく少数です。そのため、「アクセス数の多い」ウェブサイトに表示される特殊なリソースや、「アクセス数の少ない」ウェブサイトに多数表示されるリソースをブロックするには、クラウドソーシング戦略が有効です。
しかし、クラウドソーシング戦略は、話者が(比較的)少ない言語の地域など、「クラウド」が小さいウェブではうまく機能しません。本論文では、2つの新しい技術を組み合わせることで、この問題を解決します。1つ目はディープブラウザ計測です。既存の技術では正確に把握できないようなリクエストも含めて安定的に正確に影響を理解可能となりました。2つ目は、独自の広告Classifier(分類器)です。知覚ベースとページコンテキストベースの検出機能を両方持っており、複数の言語でも正確性を担保可能です。現在、この2段階のフィルタリスト生成のパイプラインを、フィルタリストの整備が不十分な3地域、スリランカ、ハンガリー、アルバニアでネット適用しています。
その結果、既存のフィルタリストを補完する新しいフィルタリストを生成しています。この3地域で、6,475ページのサイトに新しいフィルタリストを適用したところ、延べ3,349個(重複なしで1,771個)の広告および広告関連リソースがブロックされました。ネット上のリソースブロックによって得られるセキュリティ、プライバシー、パフォーマンスの向上の恩恵を主要な言語や経済地域だけでなく、すべてのネットユーザーに広げるための取組みは増えてきています。今回の成果がそうした活動の一助となることを期待しています。
結論
本記事では、この数ヶ月間のBraveリサーチによる成果の一部を簡単にご紹介しました。内容は意図的に幅広くしました。暗号技術から機械学習、プライバシー、ブラウザベースのトラッカーや広告ブロックの品質を向上させる技術、ウェブ標準の改善まで含みました。また、プロダクトとして実装され数百万人のユーザーが使用しているプロジェクト(SpeedReaderなど)に加えて、Braveのエコシステムに適用するには時間がかかるものの、学術関係者の間で反響がありBraveの信用力を高めるようなプロジェクトもご紹介させていただきました。