ブラウザAIを構築する:Leoの開発進捗とこれから

Braveプレミアムプロダクト&サービス シニアディレクター Matt McAlister寄稿

2023年後半に、BraveのAIブラウザアシスタントLeo最初のロードマップを公開しました。その投稿では、ユーザーのコントロールとプライバシーを保護しながら、Webを最大限活用するためのサポートコンパニオンとしてのLeoのビジョンを概説しました。

それ以来、Leoは役立つブラウジングコンパニオンから、スマートでパーソナライズされた協力者へと進化してきました。この変化は、AIとWebに対する私たちの考え方のより広範な変化を反映しています。モデル品質、検索機能、マルチプラットフォーム対応といった中核的な約束を果たしてきた一方で、最もエキサイティングなイノベーションのいくつかは、当初のロードマップには含まれていませんでした。マルチタブコンテキスト、タブフォーカスモード、エージェンティックAIなどの機能は、ユーザーフィードバックと、AIをブラウザの動作の基盤にするという私たちの継続的なコミットメントから生まれました。

変わらないのは、プライバシー・バイ・デザインとユーザーの選択権に対する私たちのコミットメントです。2023年後半以降の製品の進化を踏まえ、Leoの歩みを記録し、今後の方向性を共有させていただければと思います。

ここまでの歩み

過去18か月間で、私たちは基盤的な機能と革新的な機能の両方で進歩を遂げてきました。

モデルの改善とパフォーマンス

Leoの最初のローンチは、Llama 2モデルからはじまりました。それ以来、モデルの選択肢を拡大し、より多くの選択肢とオプションを提供しています。

  • より優れたデフォルトオプション:デフォルトをLlama 2 13BからMixtral 8x7Bを経て、現在Llama 3.1 8Bへとアップグレードし、同時にClaude HaikuやQwen 3 14Bも提供しています。プレミアムユーザーには、Claudeの最新Sonnet 4やDeepSeek R1などの推論モデルへのアクセスも提供しています。
  • モデル選択:様々なモデルから選択でき、無料版とプレミアム版でそれぞれ異なる機能を提供しています。または、新しい自動モデル選択機能により、Leoが各回答に最適なモデルを選択することもできるようになりました。
  • Bring your own model (BYOM):Braveでは、「bring your own model(BYOM)」と呼ばれる機能を通じて、お好みのAIプロバイダーを選択することもできます。これにより、GPT-4やGrokなどのモデル用の独自のAPIエンドポイントに接続したり、Ollamaなどのツールを通じてローカルで実行されているモデルに接続したりできます。

Leoで使用できるAIモデルの特徴の違いについて詳細はこちらをご覧ください

コンテキストとコンテンツ

  • 認知:Leoは様々なコンテンツタイプに対応し、Webページ、PDF、YouTube動画、Google Docsなどを処理できます。Leoはページに関する質問を提案し、より深い洞察を得る手助けをします。自動モードでは、現在のコンテキストに最適なモデルを決定します。また、最近画像解析機能も追加されました。
  • コンテンツ生成:Leoは標準的なマークダウンを含む出力形式を使用して、文書、リスト、表、コード等を生成できます。プロンプトを編集し、回答を再生成することで、ニーズに最適な出力を得て、他のプロジェクトやツールにコピー&ペーストできます。
  • 入力と出力:コンテキストウィンドウサイズとレート制限を拡大し、複数のコンテキストを参照したより包括的な会話を可能にしました。より堅牢な回答のために出力を増加させ、継続的なパフォーマンス改善により初回トークンのレイテンシを削減しました。

ネイティブでいく

  • ブラウザ:ブラウジング中にサイドバーでLeoをコンパニオンとして使用するか、brave://leo-aiではフルページモードでLeoを使用できます。
    • マルチプラットフォームをサポート:Leoはデスクトップ(Windows、macOS、Linux)とモバイル(AndroidiOS)で利用できます。Android版LeoとiOS版Leoには音声入力機能も含まれています。
    • クイックアクセス:ブラウザツールバーのアイコンをクリックするとサイドバーからすぐにLeoとの会話をはじめることができます。
    • 右クリックツール:ページコンテンツを操作するためのコンテキストメニューオプションを通じて、Leoの機能に素早くアクセスできます。
    • 多言語対応:インターフェースとモデルの両方で複数言語をサポートし、Leoがあなたの好みの言語を検出し、その言語で会話を行います。もしも日本語で変更が帰らなかった場合は「日本語にして」とLeoに問いかけてみてください。
  • 検索:今日市場にある多くのAI製品と同様に、LeoはBrave Search APIを使用してリアルタイムのBrave Search検索結果を組み込み、より正確で最新の情報を提供します。また、回答の根拠となったソースへのリンク付きの引用も含まれています。Brave SearchとLeoの連携により、異なるタイプの情報収集を自然に切り替えることができます。
  • Brave Talk:(日本語未対応機能)Brave TalkとLeoの統合により、会議の要約、途中参加時のキャッチアップ、Brave Talkビデオ通話の文字起こしからの会議メモの自動生成が可能です。

デスクトップ版BraveでのLeoの使用方法について詳細はこちらをご覧ください

LeoがBrave Search APIを通じて最新の情報を取得する方法について詳細はこちらをご覧ください

ユーザーエクスペリエンスの向上

  • 会話履歴チャット履歴機能により、会話はローカルに保存され(Braveのサーバーに送信・保存されることはありません)、会話を管理し、後で続きを行うことができます。
  • フィードバック:サムアップ/サムダウンのアイコンを押下することで実際に利用している環境を通じてLeoのフィードバックをすることができます。
  • 会話のきっかけ:Leoをより活用するためのコンテキストに応じた質問を提案します。
  • 継続的なUI/UX改善:モデル一覧と表示、会話UI、コンテンツ出力、タブ添付と文書アップロード機能など、インターフェースの継続的な改良を続けています。

プライバシーとセキュリティの強化

新機能が追加される際に、ドキュメント化とメッセージングの一貫性により、元々のプライバシー保護機能の強化を続けています。

  • アカウントを必要としないサービス利用:Leoの無料版はBraveアカウントを作成することなく使用することができます。
  • プライバシーを強化したサブスクリプションモデルLeoプレミアムは追跡できないトークンでサブスクリプションを認証します。アカウント作成で使用されるメールアドレスは日々のLeoの使用実態とは切り離されており、プライバシーを保護した認証システムを構築しています。
  • クラウドには会話が残りません:あなたの会話とチャット履歴は当社のサーバーに保存されることはなく、会話履歴はあなたのデバイスのローカルストレージにのみ存在します。設定によっては会話履歴を完全に無効にし、会話を閉じた後にデバイス上やその他の場所に会話が残らないようにすることも可能です。
  • クラウドにコンテキストが残りません:ファイルのアップロードやコンテンツのコピー&ペーストの際にそれらがサーバーに保存される他のAIアシスタントとは異なり、Leoはブラウザ内でネイティブに動作するため、Leoは外部サーバーに情報を保存することなく、ページコンテンツや文書を含むブラウザタブにシームレスにアクセスできます。
  • ログを採取しません:ユーザーのIPアドレスは記録されません。Leoの使用状況に関するサーバー側の記録を保持、分析、共有のために保存することはありません。

革新的な新たな機能:当初のロードマップのその先へ

これらの基盤の上に、現在私たちはWebブラウザを変革する新機能に取り組んでいます。

ガードレールを伴ったエージェント型AI

ブラウザがエージェント型AI機能とともに進化するにつれ、Webアクセスにおけるより積極的なパートナーとなります。実装をリリースする前に安全機能を引き続き改良中ですが、ブラウザがあなたの代わりに行動するエージェント型AIがいかに有用であるかは明らかです。

  • あなたが他のプロジェクトに取り組んでいる間に、代わりにWebサイトをナビゲートする
  • 必要な情報がすべて揃うまで検索クエリを実行し、改良する
  • Web上の複数のソースから収集した情報を抽出・整理し、あなたが分析と意思決定に集中できるようにする
  • 時間を取られすぎる複数ステップのワークフローやタスクを自動化する

一部のブラウザでは、AIがあなたのデータやログイン中のWebページセッション(メール、カレンダー、銀行口座、ソーシャルメディアアカウントなど)にアクセスできてしまいますが、Braveはユーザーが自身のAIの活動を完全にコントロールできるよう取り組んでいます。私たちは、拡張機能へのアクセス制限、独立したストレージパーティション、起動中の明確な警告と視覚的インジケーターなど、複数の保護機能とコントロール機能を実装しています。私たちの実装では、AIがあなたの代わりに行動する前に、必ずあなたの同意を得るようにします。

コンテキスト管理

ブラウザベースのAIは、あなたが起動を選択した際に既存のワークフロー内で動作し、クラウドベースやスタンドアロンのAIチャットアプリで行うようなコピー&ペーストや意図の説明は不要です。Braveのマルチタブコンテキスト機能により、学校の課題、会社のレポート、研究プロジェクトなど、どのような作業であっても、ブラウザで既に開いているリソース(PDF、記事、スプレッドシートなど)にまたがる質問をすることができます。

  • 包括的な分析が必要な場合に、ウェブページ、PDF、文書、画像、動画からコンテキストを共有する
  • 質問をし、パターンを特定し、選択したソース間の関連性を見つける
  • 提供したすべての資料から洞察を導き出す要約を生成する

まもなく “@” 記号でタブ、ブックマーク、履歴を言及することで、それらを添付として追加できるようになり、コンテキスト管理がさらに簡素化されます。

改善されたコンテキスト処理

私たちは多くの機能強化も実装しており、最高品質の洞察と出力を提供するために、コンテンツ処理の改善を続けています。

  • より多くのコンテンツタイプに対応した、より優れた抽出・処理方法
  • 大きなコンテキストと長時間の会話に対応したスマートな要約機能
  • 自動モード時に最も適切なモデルへの動的ルーティング

画像のサポート

Leoは現在、画像を理解・分析できるようになり、ブラウジング体験にマルチモーダル機能をもたらします。

  • WebページやPDF内の画像について質問する
  • 視覚的コンテンツの詳細な説明を取得する
  • 画像からテキストと情報を分析・抽出する
  • 複数の画像を追加することで、異なるソース間の視覚的要素を比較する

タブオーガナイザー

開発者やビジネスユーザーは、クライアントプロジェクト、調査、個人的なブラウジングにわたって、複数のウィンドウで数多くのタブを開いている状況によく陥ります。このデジタルな混乱を手動で探し回るのではなく、今ではLeoにワークフローの段階、文書の種類、言語、またはその他多くのカスタム構造によってタブを整理してもらうことができます。

  • トピックやテーマに基づいて開いているタブをフィルタリング・整理する
  • 関連するタブをグループ化してより良い集中を実現する
  • 特定のタスクのためにフィルタリングされたタブで新しいウィンドウを作成する

タブフォーカスモードについて詳細はこちらをご覧ください

今後を見据えて

ブラウザがより多くのAI機能を備えて進化するにつれ、AIが単に個別のタスクを支援するのではなく、あなたのデジタル活動を統合的に管理する自然なプラットフォームとなります。そのため、これらの継続的な改善と今後のリリースに加えて、以下のような機能追加を計画しています。

タスクとスケジュール

上記で言及したエージェント機能の基盤を基に、以下のことを可能にするタスクスケジューリングシステムを追加予定です。

  • 定期的なタスクを作成し、自動化されたワークフローをスケジュールする
  • Webページを監視し、重要な変化があった際にアラートを送る
  • タスクが完了し、結果の準備ができた際に通知を受け取る

あなたの予算範囲内のコンサートチケットをチェックしたり、あなたに言及するGitHubの課題を監視したり、関心のあるトピックのニュースを収集したりするようにLeoを設定することを想像してみてください。これらすべてを自動的に、あなたが定義したスケジュールで実行します。

オンデバイスAI

私たちはまた、より多くのオンデバイスAIに向けて、LeoのBYOM(Bring Your Own Model)機能を拡張する方法を探求しています。これには、モデルを実行するための完全に統合されたローカルモデルサポートと、デスクトップとモバイルデバイスの両方で、さらに高いセキュリティが必要なタスクに対してオフラインAI機能を有効にすることが含まれます。

アウトプットの品質向上

Brave Search APIなどの最新のモデルとツールを使用することで、ユーザーはより高品質な出力を生成できるようになります。商品データ、スポーツデータ、暗号通貨価格、そして画像、表、その他のコンテンツ形式を含むより豊富な出力により、あなたの個人的な興味についてより多くを学ぶことができます。音声モードでは、あなたが選択した声で応答します。また、仕事、学校、家庭向けのより堅牢で専門的な文書を作成することもできるようになります。

長期的な展望

これらの強固な基盤が整うことで、私たちはブラウザでAI機能を運用し提供する方法を進化させることができます。

私たちはユーザーが求めていることに注意深く耳を傾けています。ユーザーの皆様は使用しているモデル、ブラウザのどこに統合すべきか、そして仕事で何が役立つかについて教えてくれています。また、AIをより制御できるようにする方法についても教えてくれています。

私たちも自身がパワーユーザーであり、より速く学習し、より多くを達成するためにAIツールを内部で使用しています。この経験が、AIは働き方に合わせて機能すべきだという私たちの信念を後押ししています。

それこそが私たちが構築しているものです。ユーザーがAIに合わせるのではなく、ユーザーのワークフローに適応するAI。より速く学習し、より多くのことを実行し、より良い判断を下すのに役立つツールとサービスで最適化されています。私たちは、あなたのフィードバック、派手な機能よりも有用なツールへの焦点、そしてユーザーの選択とプライバシーへの揺るぎないコミットメントに導かれて、包括的なAI動作環境を通じて提供します。


ロードマップ進捗と今後の方針

以下の表はこれまでの歩みを振りつつ、私たちが提供したもの、まだ完了していないもの、そして機能リリースや性能向上をする中で私たちの理解がどのように進化したかを示しています。

戦略的方向性 対応済み 未対応 当初のロードマップを超えて 今後
プライバシーファーストのアーキテクチャ
  • オプトインコンセント
  • 機能を無効化する設定
  • IPアドレスを匿名化するリバースプロキシ
  • データは保持しない
  • プライバシーを保護したサブスクリプション
  • エージェントAIのガードレール (開発中)
    • タスク進捗インジケータ
    • アクティビティ・プレビュー
    • ユーザー介入制御
    • ユーザー同意メカニズム
    • アクセス制限
    • 専用エージェント実行環境
    • エンタープライズ・グループポリシー
  • 会話履歴の削除・無効化
  • 一時的なチャット
  • より多くのエージェントAIガードレール
    • タスク管理UI
    • 権限管理
    • アクティビティ/監査証跡
    • ロールバック/元に戻す
    • より多くのエンタープライズ制御
  • エージェント間ガードレール
  • 3rdパーティAPI認証
  • コンテキスト、メモリ、モデル、ローカルストレージのより多くの制御
  • AIプライバシーポリシーの要約
  • 不審な広告、サイト、ネットワーク活動などに対するAIセキュリティ警告とアラート
AIモデル基盤
  • より高性能のモデル
  • ビジョンモデルサポート
  • レート・リミット
  • 多言語対応 (一部の言語に限定)
  • 統合された、事前設定済みのクライアントサイドモデル
  • より多くの言語
  • 画像生成
  • Bring Your Own Model (BYOM)
  • 高速モデルデプロイメント
  • 性能改善
  • 推論モデルサポート
  • 複数の画像、スクリーンショットのサポート
  • 自動モデル設定
  • 自動プロンプト・ルーティング
  • MCPインターフェース
  • 統合された、事前設定済みクライアントサイドモデル
  • WebLLMの調査・研究 (開発中)
  • モデル・ルーティングの改善
  • 複数モデル・複数エージェントのオーケストレーション
  • さらに多くの言語
  • テキストの読み上げ
  • ライブストリームの翻訳
  • 画像生成
文脈理解
  • ラージ・コンテキストサイズ
  • コンテキスト抽出の改善
  • 多様なコンテンツの文脈認識
  • DOMツリー解析、アクセシビリティツリー
  • 動画文字起こしのサポート
  • PDFの要約
  • 画像認識
  • Brave Search拡張回答
  • ビデオ会議(Brave Talk)の文字起こしと内容理解
  • エンティティ・ハイライト
  • コンテンツ提案/自動補完
  • ユーザー定義の境界、ムードやコンテキスト
  • カスタマイズされたトーンと要約スタイル
  • ドラッグ&ドロップ・コンテキスト
  • スマートな要約
  • 構造化言語処理
  • Google Docsサポート
  • ユーザーの質問に関するヘルプ文書利用
  • プロンプト分類 (開発中)
  • 複数添付ファイル
  • スクリーンショット・アップロード
  • ブックマーク (開発中)
  • ブラウザ履歴 (開発中)
  • メモリ (開発中)
  • より大きなコンテキスト
  • コンテキスト最適化
  • 専門特化(例:天気、暗号資産、製品)
  • エージェント同士の文脈連携処理
  • 3rdパーティAPI(Google, Notion, GitHubなど)
  • パーソナライズされた適応型メモリ
  • 自動コンテキスト更新
  • 事前文脈読み込み
  • データ・視覚化・複雑UI理解
  • ドラッグ&ドロップ・コンテキスト
  • ライブ動画ストリーム理解
  • リアルタイムな文法やスタイルの提案
  • 知的検索クエリ改良と検索候補
  • カスタマイズされた適応型AI人格と応答スタイル
  • カスタム・プロンプト・テンプレートとショートカット
  • ユーザーがカスタマイズできるシステム指示
  • スマート・ネクスト・アクション提案
  • 個人最適化したタスク提案
生産性と実用性
  • テキスト生成用右クリックツール
  • 会話の永続化
  • 入力欄の自動記入
  • ブラウザDevTools連携
  • ニュースの統合
  • ファイナンシャル・ツール(暗号資産のコンテキストなど)
  • プラグイン/拡張機能フレームワーク
  • エージェント的な振る舞い (開発中)
    • ナビゲーション
    • ページ・インタラクション
    • フォーム自動入力
    • タブ制御
    • 複数サイト・ワークフロー
    • バックグラウンド・タスク
  • 複数コンテキストの会話 – タブ、ブックマーク、閲覧履歴、アップロード、など
  • 右クリックメニューの改良
  • タブフォーカスモード
  • 会話の提案
  • 編集可能なプロンプトとレスポンス
  • レスポンス再生成
  • 検索結果ページのLeo取り込み
  • Brave Talkの文字起こしに関する会話
  • 文章作成アシスタント (開発中)
  • スマートタスク
    • スケジューリング
    • 進捗追跡
    • タスク履歴
    • 並列処理
    • 自動補完機能
    • 検索ツール
    • MCPツール
  • ブラウザDevTools
  • プラグイン/拡張機能フレームワーク(MCPを含む)
  • ディープリサーチ(ビジネス分析、学術論文、計画文書)
  • スマートショッピング
    • 比較ツール
    • 価格追跡エージェント
    • 提案
    • カート管理
    • 予約自動化
  • 個人化されたニュース分析
  • コンテキスト生成の改善(文書、コード、画像)
  • コンテンツ生成のバージョン管理
  • スマート・ブックマーク/閲覧履歴・ツール
ユーザー・エクスペリエンス
  • 全画面UI(brave://leo-ai/)
  • ソースと出典
  • AndroidとiOSのモバイル機能統一
  • 会話UI
  • レスポンス・フォーマット・UI
  • コード、マークダウン出力(コピー&ペースト可)
  • フィードバック機能強化
  • モバイルUI改善(タブベース)
  • ユーザーインターフェース全体の多言語対応
  • 音声によるプロンプト入力
  • リッチメディアによるレスポンス
  • 感情、アクセントや笑いを含めたボイス・レスポンス
  • 3rdパーティ・コンテンツ・スペース
  • エージェント同士の管理画面
  • デバイスを横断した同期
ビジネスモデル
  • プレミアム・サブスクリプション
  • 広告サポートオプション
  • Brave Rewards統合
  • サブスクリプションのクリプト支払い (開発中)
  • 広告サポートオプション
  • Brave Rewards統合
  • アフィリエイト・パートナーシップ
  • エージェント・マーケットプレイス
  • 支払い

AI機能を使用したくないユーザーは、Leoを無効化でき、一度試した後にオフにしたい場合は、いつでもBrave Leoを完全に無効にすることができます。

Related articles

インターネットをもっと快適にしませんか?

Braveのブラウザは使いやすいだけでなく、デフォルトで広告をブロックし、世界中の人々に、よりクリーンで、速く、安全なウェブ体験を提供します。