CoffeeBenchとは(仕組みを解説)
CoffeeBench のサプライチェーン構造(全6社・90日間)
評価対象のAIは焙煎業者1社を操作し、残り5社は固定の基準エージェントが動かす。出典: Sakana AI / arXiv:2606.16613。
CoffeeBench とは、東京に拠点を置くAI企業 Sakana AI が2026年6月に公開した、AIエージェント(自律的に判断して動くAI)の「経営力」を測るベンチマークです。ここではまず、その正体と6社の構造、そして従来のベンチマークとの違いを順に整理します。
CoffeeBenchの定義(90日間のコーヒー経営シミュレーション)
CoffeeBench は、AIに仮想のコーヒー焙煎業者を90日間にわたって経営させ、稼いだ累積純利益(売上から費用を引いた最終的な儲け)で性能を測るベンチマークです。評価されるAIは、現金・在庫・価格・取引相手とのやり取りを自分で管理しながら、90日間でどれだけ利益を積み上げられるかを問われます。 単発の質問に答える従来のテストと違い、数か月分の連続した経営判断を一貫してこなせるかが試されます。
"two farmers, two roasters, and two retailers autonomously operate their businesses over a 90-day simulation, each seeking to maximize cumulative net income" — Abstract より
「経営」という題材が選ばれたのは、数か月から数年にわたる長期の意思決定が必要で、AIエージェントの実力が表れやすい領域だからです。公式ブログも「ビジネスの経営は、長期的な意思決定を要するため、AIエージェントにとって有望な領域だ」と述べています。
6社のサプライチェーン構造と評価対象
CoffeeBench の舞台は、コーヒーの供給網を模した6社の経済です。農家2社・焙煎業者2社・小売2社が、共通の市場で互いに豆や焙煎豆を売買します。評価対象のAIは焙煎業者1社(ロースターA)だけを操作し、残り5社は基準となる固定エージェント(Claude Sonnet 4.6)が動かします。 こうすることで、同じ環境のなかでモデルだけを差し替え、純粋に経営判断の優劣を比べられる設計になっています。
"The evaluated model controls one coffee roaster, while the remaining firms are controlled by fixed reference agents." — Abstract より
各社が使える操作(ツール)は役割ごとに分かれています。全社共通で「出品する」「値段を提示する」「注文を受ける」「メッセージを送る・読む」「請求を支払う」といった操作があり、加えて農家には生産、焙煎業者には焙煎、小売には小売価格の設定が与えられます。AIはこれらを組み合わせ、仕入れ・在庫・販売・資金繰りを自分で回していきます。
既存ベンチマークとの違い(マルチエージェント経済)
CoffeeBench が新しいのは、複数のAIが同時に動く「マルチエージェント経済」を舞台にした点です。従来のベンチマークの多くは1体のAIが受動的な環境とやり取りするだけでしたが、現実の経済は複数の主体が交渉し取引し合う場であり、CoffeeBench はその構造を再現しています。 相手の出方によって最適な行動が変わるため、単独で正解を出す力だけでなく、他社と渡り合う力も問われます。
価格はあらかじめ決まっておらず、各社の交渉と需給で動きます。そのため評価対象のAIは、安く仕入れて高く売るための交渉や、在庫をさばくための販促まで自分で考える必要があります。生成AI全体の位置づけや他モデルとの関係は、あわせて Claude とは(Anthropicの生成AI)の解説記事 も参考になります。
CoffeeBenchのベンチマーク結果(AIモデル比較)
主要AIモデルの90日間 累積純利益(CoffeeBench)
棒は累積純利益(各3回の平均)。中央が$0で、右が黒字・左が赤字。数値出典: Sakana AI / arXiv:2606.16613(Table 2)。
CoffeeBench では複数のフロンティアモデルが評価され、その結果が論文で公開されています。ここでは純利益のランキング、特定モデルに起きた失敗、そして行動量と成績の関係を見ていきます。
モデル別の純利益ランキング(GPT-5.5が首位)
論文の Table 2 によると、何も行動しない受動ベースラインはすべてのモデルが上回り、多くがプラスの純利益を残しました。90日間の累積純利益では GPT-5.5 が+$3,109で首位となり、Claude Opus 4.7(+$2,782)、Claude Sonnet 4.6(+$2,236)が続きました(いずれも3回の平均)。 Gemini 3.1 Pro(+$1,695)、GLM-5.1(+$1,597)、Kimi K2.6(+$454)も黒字を確保しています。
"all models outperform a passive baseline that takes no actions, with most achieving positive net income." — Abstract より
上位と下位を分けたのは、他社とのやり取りの積極性でした。成績の良いモデルほど農家や小売と頻繁に通信し、価格交渉や販促を仕掛けていたのに対し、成績の振るわないモデルは通信が少ない傾向が見られました。経営は単独作業ではなく、相手と動くゲームだという当たり前の事実が、数字に表れた形です。
Claude Haiku 4.5の「アイドルドリフト」問題
結果のなかで際立ったのが、Claude Haiku 4.5 の失敗です。Haiku 4.5 だけが唯一の赤字(−$630)となり、その原因は「アイドルドリフト」と名付けられた現象でした。Haiku 4.5 は内部では筋の通った分析や計画を立てていたのに、開始から数十日を過ぎると実際の経営行動をやめ、ただ「翌日へ進む」操作を繰り返してしまいました。 90日のうち平均40日が、何も意味のある行動をしない空白の日になっています。
"Claude Haiku 4.5 exhibits an idle-drift failure mode, repeatedly choosing inaction despite producing coherent assessments and plans." — Abstract より
「考えてはいるのに動かない」という失敗は、AIエージェントを長期間まかせるときの実務的な落とし穴を示しています。短い対話では優秀に見えるモデルでも、数か月分の連続判断では行動を維持できず止まってしまうことがある、というわけです。
ツール呼び出しの「量より質」
もう一つの示唆は、行動の多さがそのまま成績にはつながらない点です。Kimi K2.6 は上位モデルと同程度の回数だけツールを呼び出していましたが、純利益は伸びませんでした。 大事なのは操作の回数ではなく、どの場面でどの判断を下すかという中身だった、ということです。一方の Gemini 3.1 Pro は自分から送るメッセージは少なく、相手のメッセージを頻繁に読む受け身寄りのスタイルで、行動の型もモデルごとに違いが出ました。
CoffeeBenchの意義と読み解く注意点
CoffeeBench の市場ルール(主な設定)
最後に、CoffeeBench がAI評価のなかで持つ意味と、結果を読むときに気をつけたい点、そして日本のユーザーにとっての含意を整理します。
経営という長期タスクを測る意義(KPMGとの共同開発)
CoffeeBench は、Sakana AI が監査法人 KPMG AZSA と共同で開発しました。会計・経営の専門知見を取り入れ、後払いの掛け取引・在庫の減耗・日々の固定費といった現実の商売に近いルールを組み込んでいる点が、単なるゲームと一線を画します。 上の図のように、現金がマイナスになれば倒産する設計のため、AIは目先の売上だけでなく資金繰りまで見て動く必要があります。
こうした「数か月にわたる経営判断」を定量的に測れる物差しは、AIエージェントを実務にどこまで任せられるかを考えるうえで貴重です。日本発のAI企業が、英語圏でも例の少ない切り口の研究を出した点でも注目に値します。同じ Sakana AI のマルチエージェント技術については Sakana Fugu の解説記事 もあわせて読むと、同社の方向性が見えてきます。
ベンチマークを読むときの注意点
数字を受け取るときは、いくつか前提を踏まえると誤解を避けられます。結果は各モデル3回の平均で、ばらつき(標準偏差)も大きく、1回の実行に200ドル超・5時間超のコストがかかる重い試験です。 順位は固定された基準エージェントを相手にした条件下のものであり、相手の構成が変われば結果も動きえます。1回の勝ち負けだけで優劣を断じない姿勢が大切です。
その点 CoffeeBench は、コードと全エージェントの行動ログ(推論の過程・ツール呼び出し・社間のメッセージ)を公開しており、第三者が中身を検証できます。再現性を担保するために実験の全記録を公開している点は、結果の信頼性を高める重要な特徴です。 ベンチマークの数字を鵜呑みにせず、必要なら一次情報の軌跡まで遡れるようになっています。
CoffeeBenchから読み取れること(まとめ)
CoffeeBench が示したのは、AIエージェントの実力は「短い対話の賢さ」だけでは測れない、という事実です。GPT-5.5 や Claude Opus 4.7 のように長期の経営判断を安定してこなすモデルがある一方、Haiku 4.5 のように途中で行動が止まるモデルもあり、長く任せるほど差が開きます。AIに業務を継続して任せたい場面では、一度の回答精度ではなく、こうした長期の一貫性を確かめる視点が役立ちます。手元の資料をAIに読ませて検証する際は、あらかじめ Markdown 形式に整えておくと見出しや表の構造が保たれ、精度が上がりやすくなります。Webページをそのまま整形したいときは、次のツールが便利です。



