COLUMN

コラム

2026年05月28日

88%が失敗する理由。AIエージェントの『ハーネス設計』が本番化の鍵を握る

1. AIエージェントプロジェクトの88%が失敗する理由 — 「頭脳」はあるが「神経系」がない

2026年、企業のAIエージェントプロジェクトの88%が本番環境到達に失敗しています。
この数字は、Mediumで公開されたAgent Harness Engineering研究が明らかにしたもので、失敗の原因は「モデルの性能不足」ではありません。原因は、AIエージェントを取り巻く「ハーネス設計の欠如」にあります。

Claude CodeやCursorを使い始めた開発者の多くが、こんな壁に直面しています。「最初の数タスクはうまくいったが、長時間タスクで途中で止まる」「サブエージェントの使いどころが分からない」「コンテキストがいっぱいになると、エージェントが投げ出す」。

これらの症状が起こる理由は明確です。AIモデル(頭脳)は優秀ですが、それを制御する「神経系」「外骨格」—つまりハーネスが欠如しているのです。


2. ハーネスエンジニアリングとは何か — プロンプト・コンテキストに続く「第3フェーズ」

AI活用は、3つのフェーズを経て進化してきました。

  • 第1フェーズ(2022-2023): プロンプトエンジニアリング — 「どう指示するか」で出力品質が変わることを発見
  • 第2フェーズ(2023-2024): コンテキストエンジニアリング — 「何をコンテキストに含めるか」を設計
  • 第3フェーズ(2025-2026): ハーネスエンジニアリング — 「エージェントを取り巻く環境・制約・フィードバックループ」を設計

NxCodeの完全ガイドによると、ハーネスエンジニアリングとは「AIエージェントを信頼性の高い形で本番稼働させるために設計するシステム・制約・フィードバックループ」を指します。
これは単なる「環境設定」ではありません。エージェントがアクセスできるツール、安全性を保つガードレール、自己修正を促すフィードバックループ、人間が監視するためのオブザーバビリティ層—すべてを含む総合的な設計思想です。

本番グレードハーネスの5層構造

Faros.aiの研究では、本番環境で動作するハーネスは5つの層から構成されるとしています。

  • ツールオーケストレーション:エージェントが呼び出せるツール群の管理
  • 検証ループ:エージェントの出力を自動検証し、エラーを防ぐ
  • コンテキスト・メモリ:コンテキストウィンドウの管理と長期記憶
  • ガードレール:エージェントが逸脱した行動を取らないための制約
  • オブザーバビリティ:エージェントの動作を可視化・監視する層

2026年3月、LangChainのエンジニアリングチームは、コーディングエージェントをTerminal Bench 2.0で30位から5位に引き上げました。注目すべきは、基盤モデルを一切変更せず、ハーネスの最適化だけでこの改善を達成した点です。これは「モデルの性能差ではなく、ハーネス設計がエージェントの成否を分ける」ことを実証した重要な事例です。


3. コンテキストエンジニアリングの限界 — 「要約で縮小」がエージェントを制約していた

2023-2024年のコンテキストエンジニアリング時代、エージェントはコンテキストウィンドウがいっぱいになると、「過去の作業を要約して縮小」していました。一見、賢い戦略に見えますが、この方法には致命的な欠陥がありました。

「エージェントは自身の過去の作業を適切に要約する能力によって事実上制約されていた」—Faros.aiの報告は、この問題を端的に指摘しています。

結果として、途中で投げ出されたタスク、そもそも着手すらされていないタスクが見られました。Webサイトが部分的にしか完成せず、一部のボタンが機能しない—こうした症状は、コンテキストエンジニアリングだけでは解決できない限界を示していました。

ハーネス設計の基礎から実践まで学びたい方は、AI駆動開発伴走セミナーで体系的に学べます。4コース(入門2日/AI活用1日/リスキリング3ヶ月/アーキテクト養成2-3ヶ月)から選択可能です。


4. ハーネス工学の最重要概念 — 「ループ」がコンテキスト肥大化を解決する

ハーネスエンジニアリングがコンテキストエンジニアリングと決定的に異なるのは、「ループ」という概念の登場です。

ループ設計では、コンテキストエンジニアリングの1つ上のレイヤーに踏み込み、基本的にエージェントをループさせます。各イテレーションで、エージェントに新しいクリーンなコンテキストセットを与えることで、コンテキスト肥大化の問題を根本から回避します。

エージェントがタスクを開始および終了する方法については厳格なルールが適用されます。この環境下でエージェントを動かすことで、驚くべき結果が出始めました。

OpenAIの実証: 100万行のコード、人間の手書きゼロ

OpenAIは公式ブログで、ハーネスエンジニアリングを活用した驚異的な成果を報告しています。
同社のチームは、本番環境ベータ製品を含む約100万行のコードを構築しました—人間が手で書いた行数はゼロです。すべての行がCodexエージェントによって生成されました。OpenAIは、このプロジェクトを手書きで開発した場合の約10分の1の時間で完成させたと推定しています。

5ヶ月間で、わずか3人のエンジニアチームがCodexを駆動し、約1,500件のプルリクエストをオープン・マージしました。これは1人のエンジニアあたり1日平均3.5件のPRに相当します。チームが7人に拡大した現在、スループットはさらに向上しています。


5. サブエージェントの使いどころ — Google研究が示す「シングルの方が良いケース」もある

「複数のエージェントを使えば性能が上がる」—これは一見正しそうですが、実際にはタスクの性質によって異なります

Google と MIT の共同研究は、Minecraft や日常業務ワークフローなど「真にエージェント的な挙動が必要なタスク」で評価を行いました。Augment Codeの分析によると、結果は驚くべきものでした。

Minecraftのクラフティングタスクでは、シングルエージェントが単独で45%以上の精度でタスクを実行できる場合、マルチエージェント構成に切り替えると、パフォーマンスが39%から70%低下しました。その理由は「情報の断片化」です。各クラフティング行動がインベントリの状態を変更し、後続の行動がそれに依存するため、順次的な依存関係は複数エージェントにうまく分割できないのです。

マルチエージェントが有効なケース

  • 並列処理が可能なタスク:複数のリサーチソースを同時に調査する等
  • 役割が明確に分離できるタスク:フロントエンド / バックエンド / データベースの分業
  • 情報の断片化が許容されるタスク:Finance-Agentベンチマークでは、マルチエージェントが+81%の改善を示しました

つまり、「複数エージェントを使えば良い」という単純な話ではなく、タスクの性質に応じたハーネス設計が重要なのです。


6. 認識合わせの重要性 — 「ちっちゃいウォーターフォール」を回すという発想

AIエージェントに指示を投げる前に、「認識漏れ・考慮漏れをなくす」プロセスを挟むことが、ハーネスエンジニアリングのもう1つの重要な要素です。

Claude Codeの /grill-me スキルは、この認識合わせプロセスの好例です。エージェントに指示を投げる前に、「めっちゃちっちゃいウォーターフォールを何回も回す」ようなアプローチで、人間とエージェントの間の認識のずれを解消します。

「指示を仕上げるんじゃなくって、その人間側も意見を出すべき」—この認識合わせプロセスは、開発対象に対する人間側の理解と発見を促進する副次的な効果も持ちます。

Captain.AIは、ハーネス設計を体系的に実装できるプラットフォームです。スキル定義、MCP拡張、ハーネス設定機能により、AIエージェントに適切な「役割」「ルール」「フィードバックループ」を与え、人間と対等に働ける環境を構築できます。AIを「使う」のではなく、「協働」する—この新しいパラダイムを実現するのがCaptain.AIです。


7. Claude Code / Cursor での実装パターン — .claude/ ディレクトリ、Skills、Hooks

Claude CodeやCursorでのハーネス実装は、3つのステップで始められます。

ステップ1: .claude/ ディレクトリを作成

プロジェクトルートに .claude/ ディレクトリを作成します。これはClaude Codeがプロジェクト固有のハーネス設定を読み込むための標準的な場所です。

ステップ2: CLAUDE.md にルールと設定を記述

QiitaのHarness最適化ガイドによると、CLAUDE.md にルールを書くこと自体がハーネスエンジニアリングです。
ここには、エージェントが従うべきコーディング規約、アーキテクチャ制約、禁止事項などを明示的に記述します。例えば「テストを書かずにコードをコミットしない」「APIキーをハードコードしない」など、エージェントが逸脱してはいけない境界を定義します。

ステップ3: 繰り返しタスクを .claude/skills/ にスキルとして定義

2026年5月時点で、Claude Codeは標準メカニズム(サブエージェント、フック、カスタムコマンド)が完備しています。Wentz Designの2026年4月の備忘録では、実装パターンの詳細が解説されています。

ハーネスの構成要素は以下の通りです。

  • CLAUDE.md:エージェントの動作ルール・制約を定義
  • settings.json:プロジェクト固有の設定
  • Skills:再利用可能なタスクテンプレート
  • Auto Memory:エージェントの長期記憶
  • Hooks:特定のイベント(コミット前、デプロイ前等)で自動実行される検証スクリプト

GitHub ai-boost/awesome-harness-engineeringリポジトリには、実装例・パターン・ベストプラクティスが網羅的にまとめられています。実際にハーネスを構築する際の参考として非常に有用です。


8. コスト削減効果 — 専任チームが6ヶ月で30-50%削減を達成

ハーネスエンジニアリングは、品質だけでなくコストにも直結します。

TrueFoundryのAIコスト最適化ガイドによると、専任インフラエンジニアリングチームを構築した企業は、6ヶ月以内に30-50%のコスト削減を達成しながらパフォーマンスを維持・向上させています。

これは「安いモデルに切り替える」のではなく、ハーネス全体の最適化を行った結果です。具体的には、タスクごとのモデル選択、プロンプトキャッシング、ゲートウェイ層でのトークン予算、サーキットブレーカーなどの仕組みを組み合わせています。

ハイブリッドモデルルーティングの効果

多くのチームが採用している90/10パターンでは、シンプルなクエリは小型・安価なモデルにルーティングし、複雑なクエリのみプレミアムモデルに送ります。この戦略により、品質を維持しながら大幅なコスト削減を実現しています。

AIエージェントを安定稼働させるには、インフラ基盤も重要です。Kuboは、マネージドKubernetesとして、AIワークロードを自社制御下で運用できる基盤を月額約48,000円から提供します。データ主権を保ちながら、AIインフラを構築したい企業に最適です。


9. まとめ — 「ハーネス」がAIエージェント開発の成否を分ける時代

2026年、AIエージェント開発は新しいフェーズに入りました。モデルの「頭脳」はすでに十分に優秀です。問題は、それを制御し、安全に、信頼性高く本番稼働させる「神経系」「外骨格」—つまりハーネスが欠如していることです。

88%の企業AIエージェントプロジェクトが本番環境到達に失敗する理由は、ハーネス設計の欠如です。逆に、ハーネスエンジニアリングを体系的に実践すれば、Claude CodeやCursorで「途中で止まる」問題を解決し、長時間タスクを安定稼働させ、コストを30-50%削減できます。

AIを「使う」フェーズは終わりつつあります。これからは、AIと「協働」し、チーム全体の生産性を底上げする組織が競争優位を握ります。ハーネスエンジニアリングは、AIエージェントに適切な「役割」「ルール」「フィードバックループ」を与え、人間と対等に働ける環境を構築する設計思想です。

本記事で紹介したループ設計、サブエージェントの使い分け、認識合わせプロセス、.claude/ ディレクトリでの実装パターン—これらを実践することで、AIエージェント開発の成否を分ける「ハーネス」を手に入れることができます。

役に立ったら、記事をシェアしてください