WHATISAI|第3章
レバー②検証
── 推測を、決定論につなぐ
ここが、世界トップクラスとアマチュアを分ける核心です。モデルは"もっともらしいコード"を推測しますが、正しいかは保証しない。 その確率的な推測を、「テストが通った/通らない」という決定論に接続する ── それが検証レバー。そして、ひとつ厄介な事実があります。
本文の点線の専門用語は、タップすると意味が出ます。
なぜ検証が"自動化の上限"なのか検証できることしか、任せられない
Karpathy が Sequoia 2026 で言い切った原則です。
コーディングエージェントが優れているのは、「テスト合格/失敗、プログラム実行/クラッシュ」という明確なフィードバックがあるから。自動化できる範囲は「指定できること」から「検証できること」へ拡張された。 — Andrej Karpathy, Sequoia 2026(要約)
つまり ── 検証ループが作れるタスクほど、安心して Claude Code に任せられる。逆に検証が作れないタスク(正解が曖昧・テストが書けない)は、自律に任せると危ない。だから一流はまず問う:「これは、何をもって"できた"とするか?」
不都合な事実モデルは、自分の仕事を採点できない
「じゃあ Claude に自分でレビューさせればいい」── そう思いますよね。ところが Anthropic の発見はこうです。
エージェントは、自分が出した仕事を評価させると自信を持って高く評価しがち ── 人間の目には明らかに凡庸でも。自分の採点は、決まって甘い方へ偏る。 — Anthropic「Harness design for long-running application development」(要約)
理由は、これも"クセ"です。モデルは訓練で「自信を持って答える」パターンを学習している(説得力が好まれた結果= の裏面)。だから自分のバグにも自信満々。下で、自己採点と「分離」の差を体感してください。
- 入力バリデーション⚠ バグ検出
- 正常系のロジック問題なし
- 認証チェック見逃し…
- エラーハンドリング見逃し…
- 表示の整形問題なし
※ 概形デモ。Anthropic は「エージェントは自分の仕事を自信を持って高く評価しがちで、自己採点は甘い方へ偏る」と報告。対策は GAN(生成器・識別器)にならった生成者と評価者の分離。Claude Code では、実装とは別セッション/別サブエージェントにレビューさせるのがこれ。
解決は、構造で生成者と評価者を、分ける
解は精神論ではなく構造です。 が生成器と識別器を分けるように、生成する主体と、評価する主体を、別の文脈にする。Claude Code での具体:
- 別セッション/別サブエージェントにレビューさせる ── 実装した本人(同じ文脈)ではなく、新鮮な文脈の評価者に。「自分が書いたコードへのバイアス」が消える。
- 検証専用サブエージェントを
.claude/agents/に常備(エラー処理・テスト網羅・セキュリティの3点確認役)。 - hooks で機械的ゲート ── Stop hook やテストを、人格に頼らず仕組みで強制する。
Claude Code に大きめの機能を実装させた。レビューは誰にさせるのが筋が良い?
発展発展:検証の最前線 ── 検証しにくいものを、どう検証するか(最前線②)▼ 数式が苦手な方は飛ばしてOK
検証レバーには、底があります。検証ループは「検証できるタスク」にしか効かない。テストが書けるコードは天国ですが、世の中には検証しにくい仕事が山ほどある ── 長期の設計判断、価値観の絡む出力、"良い文章か" のような曖昧な基準。
ここが、いま研究と実務がせめぎ合う最も深い最前線です。「」と呼ばれ、アプローチは進化中:
- RLHF → RLAIF:人の好みでの評価を、AIの評価で置き換え/補強する。
- debate(討論):2つのモデルに反論させ合い、人間は判定だけする。
- 段階的な分解:検証しにくい大問題を、検証できる小問題に割る(第4章の分割と地続き)。
実務的な含意はシンプルです:検証ループが作れる仕事から、優先して自動化せよ。検証が曖昧な仕事は、自律に委ねきらず、人間ゲート(第5章)を厚くする。
⚠ 時点依存・議論中:scalable oversight は未解決の研究領域で、決定打はまだない(2026年なかば時点)。普遍なのは「検証可能性が、自動化の上限を決める」という構造。出典: Anthropic(モデルの自己評価バイアス)、Karpathy Sequoia 2026、Epsilla "Harness Engineering"。
「できた」と言うのは、モデルではなく、あなたの検証ループ。
そして、採点者は別人にせよ。
── Claude の「できました!」を、額面で受け取らない。エビデンスを見せさせ、評価は分離する。これだけで、あなたの出荷物の信頼性は段違いになります。