AgentStop:ローカルAIエージェントを扱うコンシューマーデバイスの省エネツール

BraveのDzung Pham、Kleomenis Katevas、Ali Shahin Shamsabadi、Hamed Haddadiによる研究を紹介します。

概要

LLMベースのエージェントをローカルで実行することで、プライバシーを保護することができます。プロンプトや推論の過程がデバイスの外に出ることなく、クラウドのログにも残りません。しかし、あまり語られてこなかった隠れたコストがあります。ローカルAIエージェントは、LLMのサイズに関わらず、どこにも辿り着かないLLM推論・思考・ツール呼び出しに膨大なリソースを浪費することで、バッテリーを急速に消耗させます。 これはユーザーにフラストレーションを与え、場合によっては不安を引き起こします。この問題に対処するため、私たちはAgentStopを設計しました。AgentStopは、エージェントのLLMバックエンドをリアルタイムで監視し、無駄な計算処理に向かっていると予測した時点で、バッテリーを消耗させる前に見込みのない推論チェーンを打ち切る、軽量な効率化スーパーバイザーです。

AgentStopは第1回ACM Conference on AI and Agentic Systems(ACM CAIS 2026)に採択され、オープンソースですべての実装を公開しています。また、Artifact Evaluation Committeeより Artifact AvailableArtifact FunctionalResults Reproduced という3つの再現性バッジを授与されました:。AgentStopは、5月27日〜29日にカリフォルニア州サンノゼで開催される同カンファレンスにて発表されます。

ローカルAIエージェントがプライバシーに不可欠な理由

AIエージェントにコードのバグ修正を依頼する場面を想像してみてください。エージェントがクラウドで動作している場合、コードベース全体がマシンの外に出て、サードパーティのサーバーに送信されます。ローカルAIエージェントは、推論とデータ処理をデバイス上で完結させることでこのプライバシーリスクを軽減し、機密ファイルを外部インフラにアップロードする必要がなくなります。さらに、APIコストを削減し、インターネット接続への依存度も下げられます。

4ビット量子化やMixture-of-Experts(MoE)アーキテクチャ1をはじめとするモデル効率化の最新技術により、ローカル環境へのデプロイは格段に現実的になりました。300億パラメータのモデルが24GBのノートパソコンといったコンシューマー向けハードウェアで動作できるようになり、真に実用的なオンデバイスエージェントはもはや遠い夢ではありません。しかし、そうしたエージェントの実行にはコストが伴います。バッテリー残量20%の警告が表示されるまで、そのコストはなかなか意識されないものです。

ローカルAIエージェントは実行コストが高い

(モバイルデバイスでは特に)バッテリー不安がすでに現実的な問題となっている

LLMベースのエージェントは、リソースの消費という点で単純なLLMチャットとは根本的に異なります。エージェントは複数ステップのサイクルで動作し、各ステップで新たな推論が必要です。具体的には、思考、ツール呼び出し、アクションの実行、結果の観察、そして再び思考というプロセスを繰り返します。この反復処理により、エージェント型のワークロードは膨大なリソースを消費します。さらに、その計算処理の相当な割合が、そもそも成功する見込みのなかったステップに費やされています。

推論、ツール使用、リトライループのサイクルにより、エージェント型のワークロードは単純なLLMチャットと比べて圧倒的に多くの計算リソースを消費します。そしてその計算の相当部分が、最初から成功しなかった実行に使われています。

図1:Qwen3-Coder-30B-A3Bを使用したApple M1 Max上での1回のコーディングタスクにおける消費電力と温度の推移。各電力スパイクは新たなLLM推論呼び出しに対応しており、90°C超の持続的な熱負荷は、約10分間にわたる30回以上の呼び出しの累積コストを反映しています。その大部分は、エージェントが最終的に完了できないタスクに対して無駄に費やされた可能性があります。
図1:Qwen3-Coder-30B-A3Bを使用したApple M1 Max上での1回のコーディングタスクにおける消費電力と温度の推移。各電力スパイクは新たなLLM推論呼び出しに対応しており、90°C超の持続的な熱負荷は、約10分間にわたる30回以上の呼び出しの累積コストを反映しています。その大部分は、エージェントが最終的に完了できないタスクに対して無駄に費やされた可能性があります。

MacBook Pro M1 Max上でこれらの動作をテストしたところ(図1参照)、1回のコーディングタスクで以下のような結果が見られました。

  • 実行時間が10分以上に及ぶ
  • 30回以上の個別LLM推論呼び出しが発生する
  • GPUの消費電力が40ワットを超える
  • GPUの温度が90°C以上の状態が長時間続く

これは単純なクエリではありません。最終的に失敗するかもしれないタスクのために、ノートパソコンが10分間フル稼働し続けるということです。

参考までに、1回のコーディングタスクの失敗だけで、ノートパソコンのバッテリーが約3%消耗します。小さな数字に思えるかもしれませんが、実際の影響を考えてみてください。複雑なソフトウェアのデバッグにエージェントを使っている場合、解決策が見つかるまでに5回から10回失敗することもあれば、最終的に諦めてしまうこともあります。その失敗した試行だけで、有用な結果が得られる前にバッテリーの15〜30%が消費される可能性があります。

Webベースの質問応答は負荷が軽めですが、同じ原則が当てはまります。Web検索タスクが10回連続で失敗すれば、無駄にバッテリーの3〜7%を消費することになります。

特にモバイルデバイスでは、こうした消費がすぐに積み重なります。バッテリー不安はすでに実証された心理的な問題です。バッテリー残量の低下が多くのユーザーにとって大きなストレス源となることは研究で示されており、この現象はノモフォビア2と呼ばれることもあります。こうした不安がデバイスの使い方や信頼感に直接影響することも明らかになっています3

AgentStop:エージェント向け効率化スーパーバイザー構築への第一歩

AgentStopは、エージェントの動作を監視しながら、早い段階でタスクが成功しそうかどうかを予測する 軽量な効率化スーパーバイザー です。見込みがないと判断した場合、エージェントがさらにエネルギーを無駄にする前に処理を停止します。

ポイントは、エージェントは気づかないうちに自らの失敗を シグナルとして発している という点です。AgentStopはエージェントの出力に現れる微妙なパターンを監視することで、最初の数ステップのうちに失敗する実行を見抜くことができます。

監視する特徴量には以下が含まれます。

  • トークンの対数確率: モデルが生成する各単語にどれだけ「確信」を持っているかを示す指標です。確信度が低いほど、エージェントが行き詰まっていることと相関する傾向があります。
  • ステップごとのトークン数: 異常に長い推論チェーンは、エージェントが堂々巡りに陥っているサインである可能性があります。
  • ステップ間のトークン重複: エージェントが同じ内容を繰り返している場合、ループにはまっている可能性が高いです。

これらのシグナルは通常の推論中にすでに生成されるため、収集に伴う追加のエネルギーコストはほぼゼロです。

AgentStopは、成功・失敗のラベルが付いたエージェント実行データセットを用いて、勾配ブースティング決定木(XGBoost使用)を学習します。このモデルは意図的に軽量に設計されており、1回の推論コストは0.01 mWh未満です。スーパーバイザー自身が節約効果を打ち消してしまうことはありません。

デプロイされると、各エージェントステップの後に単一の分類器が1回実行され、シンプルな判定を返します。続行停止 です。

AgentStopはわずかなタスク精度の低下で大幅なエネルギー削減を実現

2種類の代表的なタスクでAgentStopを評価しました。

Webベースの質問応答

Qwen3-30B-A3Bを搭載し、Brave Search APIによるWeb検索を利用できるエージェントを用いて、2つのデータセットでテストを実施しました。対象はFRAMES(824件のマルチホップ推論問題)とSimpleQA(4,326件の事実確認問題)です。

データセット 終了ステップ数 エネルギー浪費削減率 タスク精度の低下
FRAMES 5 約22% 2%未満
SimpleQA 4 約23% 2%未満

両データセットにおいて、AgentStopはランダム停止・最小対数確率閾値・平均対数確率閾値といったシンプルな比較手法をいずれも上回りました。特に、早期介入の効果が最も大きい序盤のステップで顕著な差が見られました。

コーディング

コーディングは、はるかに難易度の高い問題です。Qwen3-Coder-30B-A3Bを搭載したエージェントは、500タスクのSWE-Bench Verifiedベンチマークで18.8%の成功率を達成しており、同条件でのGPT-4oの21.2%に匹敵する結果です。失敗した実行のコストは高く、1回のコーディング失敗で約3,000 mWhを消費します。これは100Whのノートパソコンのバッテリーの約3%に相当します。

データセット 終了ステップ数 エネルギー浪費削減率 タスク精度の低下
SWE-Bench Verified 5 約19% 約3%

注目すべき点として、総エネルギー消費の約60%が最初の10ステップ以内に発生しており、早期介入の効果が非常に大きいことがわかります。AgentStopは、最も重要なこの最初の10ステップ以内での成否分類において、AUC 0.6〜0.7を達成しています。

両タスクを通じて結果は一貫しています。AgentStopは、タスク完了率の低下を5%未満に抑えながら、無駄なエネルギーの15〜20%を回収します。しかも、スーパーバイザー自体の実行コストはほぼゼロです。

ローカルAIエージェントがより高性能で自律的になるにつれ、効率性はインテリジェンスと同じくらい重要になります。ローカルAIエージェントはすでにプライバシーを守り、APIコストを削減し、インターネット接続への依存を減らしています。AgentStopは、オンデバイスエージェントをプライベートで有用なだけでなく、エネルギーを意識したものにするための第一歩です。

AgentStopのコードとデータセットは https://github.com/brave-experiments/AgentStop で公開しています。

関連記事

エージェンティック・オーバーシェアリングによるプライバシーのリスク

3月 5, 2026

あなたの代わりに動くエージェントが、あなたのデータを漏洩させています。研究により、これが一般的な現象であること、プライバシーを意識するよう指示するだけでは不十分であること、そしてプライバシーを強化することで実際にAIの性能が向上する可能性があることが明らかになりました。

この記事を読む