ブラウザAIを構築する:Leoの開発進捗とこれから
Braveプレミアムプロダクト&サービス シニアディレクター Matt McAlister寄稿
2023年後半に、BraveのAIブラウザアシスタントLeoの最初のロードマップを公開しました。その投稿では、ユーザーのコントロールとプライバシーを保護しながら、Webを最大限活用するためのサポートコンパニオンとしてのLeoのビジョンを概説しました。
それ以来、Leoは役立つブラウジングコンパニオンから、スマートでパーソナライズされた協力者へと進化してきました。この変化は、AIとWebに対する私たちの考え方のより広範な変化を反映しています。モデル品質、検索機能、マルチプラットフォーム対応といった中核的な約束を果たしてきた一方で、最もエキサイティングなイノベーションのいくつかは、当初のロードマップには含まれていませんでした。マルチタブコンテキスト、タブフォーカスモード、エージェンティックAIなどの機能は、ユーザーフィードバックと、AIをブラウザの動作の基盤にするという私たちの継続的なコミットメントから生まれました。
変わらないのは、プライバシー・バイ・デザインとユーザーの選択権に対する私たちのコミットメントです。2023年後半以降の製品の進化を踏まえ、Leoの歩みを記録し、今後の方向性を共有させていただければと思います。
ここまでの歩み
過去18か月間で、私たちは基盤的な機能と革新的な機能の両方で進歩を遂げてきました。
モデルの改善とパフォーマンス
Leoの最初のローンチは、Llama 2モデルからはじまりました。それ以来、モデルの選択肢を拡大し、より多くの選択肢とオプションを提供しています。
- より優れたデフォルトオプション:デフォルトをLlama 2 13BからMixtral 8x7Bを経て、現在Llama 3.1 8Bへとアップグレードし、同時にClaude HaikuやQwen 3 14Bも提供しています。プレミアムユーザーには、Claudeの最新Sonnet 4やDeepSeek R1などの推論モデルへのアクセスも提供しています。
- モデル選択:様々なモデルから選択でき、無料版とプレミアム版でそれぞれ異なる機能を提供しています。または、新しい自動モデル選択機能により、Leoが各回答に最適なモデルを選択することもできるようになりました。
- Bring your own model (BYOM):Braveでは、「bring your own model(BYOM)」と呼ばれる機能を通じて、お好みのAIプロバイダーを選択することもできます。これにより、GPT-4やGrokなどのモデル用の独自のAPIエンドポイントに接続したり、Ollamaなどのツールを通じてローカルで実行されているモデルに接続したりできます。
Leoで使用できるAIモデルの特徴の違いについて詳細はこちらをご覧ください。
コンテキストとコンテンツ
- 認知:Leoは様々なコンテンツタイプに対応し、Webページ、PDF、YouTube動画、Google Docsなどを処理できます。Leoはページに関する質問を提案し、より深い洞察を得る手助けをします。自動モードでは、現在のコンテキストに最適なモデルを決定します。また、最近画像解析機能も追加されました。
- コンテンツ生成:Leoは標準的なマークダウンを含む出力形式を使用して、文書、リスト、表、コード等を生成できます。プロンプトを編集し、回答を再生成することで、ニーズに最適な出力を得て、他のプロジェクトやツールにコピー&ペーストできます。
- 入力と出力:コンテキストウィンドウサイズとレート制限を拡大し、複数のコンテキストを参照したより包括的な会話を可能にしました。より堅牢な回答のために出力を増加させ、継続的なパフォーマンス改善により初回トークンのレイテンシを削減しました。
ネイティブでいく
- ブラウザ:ブラウジング中にサイドバーでLeoをコンパニオンとして使用するか、brave://leo-aiではフルページモードでLeoを使用できます。
- マルチプラットフォームをサポート:Leoはデスクトップ(Windows、macOS、Linux)とモバイル(Android、iOS)で利用できます。Android版LeoとiOS版Leoには音声入力機能も含まれています。
- クイックアクセス:ブラウザツールバーのアイコンをクリックするとサイドバーからすぐにLeoとの会話をはじめることができます。
- 右クリックツール:ページコンテンツを操作するためのコンテキストメニューオプションを通じて、Leoの機能に素早くアクセスできます。
- 多言語対応:インターフェースとモデルの両方で複数言語をサポートし、Leoがあなたの好みの言語を検出し、その言語で会話を行います。もしも日本語で変更が帰らなかった場合は「日本語にして」とLeoに問いかけてみてください。
- 検索:今日市場にある多くのAI製品と同様に、LeoはBrave Search APIを使用してリアルタイムのBrave Search検索結果を組み込み、より正確で最新の情報を提供します。また、回答の根拠となったソースへのリンク付きの引用も含まれています。Brave SearchとLeoの連携により、異なるタイプの情報収集を自然に切り替えることができます。
- Brave Talk:(日本語未対応機能)Brave TalkとLeoの統合により、会議の要約、途中参加時のキャッチアップ、Brave Talkビデオ通話の文字起こしからの会議メモの自動生成が可能です。
デスクトップ版BraveでのLeoの使用方法について詳細はこちらをご覧ください。
LeoがBrave Search APIを通じて最新の情報を取得する方法について詳細はこちらをご覧ください。
ユーザーエクスペリエンスの向上
- 会話履歴:チャット履歴機能により、会話はローカルに保存され(Braveのサーバーに送信・保存されることはありません)、会話を管理し、後で続きを行うことができます。
- フィードバック:サムアップ/サムダウンのアイコンを押下することで実際に利用している環境を通じてLeoのフィードバックをすることができます。
- 会話のきっかけ:Leoをより活用するためのコンテキストに応じた質問を提案します。
- 継続的なUI/UX改善:モデル一覧と表示、会話UI、コンテンツ出力、タブ添付と文書アップロード機能など、インターフェースの継続的な改良を続けています。
プライバシーとセキュリティの強化
新機能が追加される際に、ドキュメント化とメッセージングの一貫性により、元々のプライバシー保護機能の強化を続けています。
- アカウントを必要としないサービス利用:Leoの無料版はBraveアカウントを作成することなく使用することができます。
- プライバシーを強化したサブスクリプションモデル:Leoプレミアムは追跡できないトークンでサブスクリプションを認証します。アカウント作成で使用されるメールアドレスは日々のLeoの使用実態とは切り離されており、プライバシーを保護した認証システムを構築しています。
- クラウドには会話が残りません:あなたの会話とチャット履歴は当社のサーバーに保存されることはなく、会話履歴はあなたのデバイスのローカルストレージにのみ存在します。設定によっては会話履歴を完全に無効にし、会話を閉じた後にデバイス上やその他の場所に会話が残らないようにすることも可能です。
- クラウドにコンテキストが残りません:ファイルのアップロードやコンテンツのコピー&ペーストの際にそれらがサーバーに保存される他のAIアシスタントとは異なり、Leoはブラウザ内でネイティブに動作するため、Leoは外部サーバーに情報を保存することなく、ページコンテンツや文書を含むブラウザタブにシームレスにアクセスできます。
- ログを採取しません:ユーザーのIPアドレスは記録されません。Leoの使用状況に関するサーバー側の記録を保持、分析、共有のために保存することはありません。
革新的な新たな機能:当初のロードマップのその先へ
これらの基盤の上に、現在私たちはWebブラウザを変革する新機能に取り組んでいます。
ガードレールを伴ったエージェント型AI
ブラウザがエージェント型AI機能とともに進化するにつれ、Webアクセスにおけるより積極的なパートナーとなります。実装をリリースする前に安全機能を引き続き改良中ですが、ブラウザがあなたの代わりに行動するエージェント型AIがいかに有用であるかは明らかです。
- あなたが他のプロジェクトに取り組んでいる間に、代わりにWebサイトをナビゲートする
- 必要な情報がすべて揃うまで検索クエリを実行し、改良する
- Web上の複数のソースから収集した情報を抽出・整理し、あなたが分析と意思決定に集中できるようにする
- 時間を取られすぎる複数ステップのワークフローやタスクを自動化する
一部のブラウザでは、AIがあなたのデータやログイン中のWebページセッション(メール、カレンダー、銀行口座、ソーシャルメディアアカウントなど)にアクセスできてしまいますが、Braveはユーザーが自身のAIの活動を完全にコントロールできるよう取り組んでいます。私たちは、拡張機能へのアクセス制限、独立したストレージパーティション、起動中の明確な警告と視覚的インジケーターなど、複数の保護機能とコントロール機能を実装しています。私たちの実装では、AIがあなたの代わりに行動する前に、必ずあなたの同意を得るようにします。
コンテキスト管理
ブラウザベースのAIは、あなたが起動を選択した際に既存のワークフロー内で動作し、クラウドベースやスタンドアロンのAIチャットアプリで行うようなコピー&ペーストや意図の説明は不要です。Braveのマルチタブコンテキスト機能により、学校の課題、会社のレポート、研究プロジェクトなど、どのような作業であっても、ブラウザで既に開いているリソース(PDF、記事、スプレッドシートなど)にまたがる質問をすることができます。
- 包括的な分析が必要な場合に、ウェブページ、PDF、文書、画像、動画からコンテキストを共有する
- 質問をし、パターンを特定し、選択したソース間の関連性を見つける
- 提供したすべての資料から洞察を導き出す要約を生成する
まもなく “@” 記号でタブ、ブックマーク、履歴を言及することで、それらを添付として追加できるようになり、コンテキスト管理がさらに簡素化されます。
改善されたコンテキスト処理
私たちは多くの機能強化も実装しており、最高品質の洞察と出力を提供するために、コンテンツ処理の改善を続けています。
- より多くのコンテンツタイプに対応した、より優れた抽出・処理方法
- 大きなコンテキストと長時間の会話に対応したスマートな要約機能
- 自動モード時に最も適切なモデルへの動的ルーティング
画像のサポート
Leoは現在、画像を理解・分析できるようになり、ブラウジング体験にマルチモーダル機能をもたらします。
- WebページやPDF内の画像について質問する
- 視覚的コンテンツの詳細な説明を取得する
- 画像からテキストと情報を分析・抽出する
- 複数の画像を追加することで、異なるソース間の視覚的要素を比較する
タブオーガナイザー
開発者やビジネスユーザーは、クライアントプロジェクト、調査、個人的なブラウジングにわたって、複数のウィンドウで数多くのタブを開いている状況によく陥ります。このデジタルな混乱を手動で探し回るのではなく、今ではLeoにワークフローの段階、文書の種類、言語、またはその他多くのカスタム構造によってタブを整理してもらうことができます。
- トピックやテーマに基づいて開いているタブをフィルタリング・整理する
- 関連するタブをグループ化してより良い集中を実現する
- 特定のタスクのためにフィルタリングされたタブで新しいウィンドウを作成する
タブフォーカスモードについて詳細はこちらをご覧ください。
今後を見据えて
ブラウザがより多くのAI機能を備えて進化するにつれ、AIが単に個別のタスクを支援するのではなく、あなたのデジタル活動を統合的に管理する自然なプラットフォームとなります。そのため、これらの継続的な改善と今後のリリースに加えて、以下のような機能追加を計画しています。
タスクとスケジュール
上記で言及したエージェント機能の基盤を基に、以下のことを可能にするタスクスケジューリングシステムを追加予定です。
- 定期的なタスクを作成し、自動化されたワークフローをスケジュールする
- Webページを監視し、重要な変化があった際にアラートを送る
- タスクが完了し、結果の準備ができた際に通知を受け取る
あなたの予算範囲内のコンサートチケットをチェックしたり、あなたに言及するGitHubの課題を監視したり、関心のあるトピックのニュースを収集したりするようにLeoを設定することを想像してみてください。これらすべてを自動的に、あなたが定義したスケジュールで実行します。
オンデバイスAI
私たちはまた、より多くのオンデバイスAIに向けて、LeoのBYOM(Bring Your Own Model)機能を拡張する方法を探求しています。これには、モデルを実行するための完全に統合されたローカルモデルサポートと、デスクトップとモバイルデバイスの両方で、さらに高いセキュリティが必要なタスクに対してオフラインAI機能を有効にすることが含まれます。
アウトプットの品質向上
Brave Search APIなどの最新のモデルとツールを使用することで、ユーザーはより高品質な出力を生成できるようになります。商品データ、スポーツデータ、暗号通貨価格、そして画像、表、その他のコンテンツ形式を含むより豊富な出力により、あなたの個人的な興味についてより多くを学ぶことができます。音声モードでは、あなたが選択した声で応答します。また、仕事、学校、家庭向けのより堅牢で専門的な文書を作成することもできるようになります。
長期的な展望
これらの強固な基盤が整うことで、私たちはブラウザでAI機能を運用し提供する方法を進化させることができます。
私たちはユーザーが求めていることに注意深く耳を傾けています。ユーザーの皆様は使用しているモデル、ブラウザのどこに統合すべきか、そして仕事で何が役立つかについて教えてくれています。また、AIをより制御できるようにする方法についても教えてくれています。
私たちも自身がパワーユーザーであり、より速く学習し、より多くを達成するためにAIツールを内部で使用しています。この経験が、AIは働き方に合わせて機能すべきだという私たちの信念を後押ししています。
それこそが私たちが構築しているものです。ユーザーがAIに合わせるのではなく、ユーザーのワークフローに適応するAI。より速く学習し、より多くのことを実行し、より良い判断を下すのに役立つツールとサービスで最適化されています。私たちは、あなたのフィードバック、派手な機能よりも有用なツールへの焦点、そしてユーザーの選択とプライバシーへの揺るぎないコミットメントに導かれて、包括的なAI動作環境を通じて提供します。
ロードマップ進捗と今後の方針
以下の表はこれまでの歩みを振りつつ、私たちが提供したもの、まだ完了していないもの、そして機能リリースや性能向上をする中で私たちの理解がどのように進化したかを示しています。
戦略的方向性 | 対応済み | 未対応 | 当初のロードマップを超えて | 今後 |
---|---|---|---|---|
プライバシーファーストのアーキテクチャ |
|
|
|
|
AIモデル基盤 |
|
|
|
|
文脈理解 |
|
|
|
|
生産性と実用性 |
|
|
|
|
ユーザー・エクスペリエンス |
|
|
|
|
ビジネスモデル |
|
|
|
|
AI機能を使用したくないユーザーは、Leoを無効化でき、一度試した後にオフにしたい場合は、いつでもBrave Leoを完全に無効にすることができます。