WHATISAI|第5章
レバー④舵
── 人が握るもの
文脈・検証・分割と来て、最後のレバーは舵(steering)。Claude Code をどれだけ自律させても、 最後に責任を持って舵を握るのは人間です。"Humans steer. Agents execute." ── どこを任せ、どこを握るか。その線引きが、事故と信頼を分けます。
合言葉人が操舵し、エージェントが実行する
OpenAI のハーネス哲学のスローガンが、この章の全てです。
“Humans steer. Agents execute.”— OpenAI, Harness Engineering
Karpathy も同じ線を引きます ──「思考は外注できるが、理解は外注できない」。何を作る価値があるか、どの結果が疑わしいか、どのトレードオフが許容できるか ── これらは舵であり、人間に残る。コードを書く手は委譲できても、舵は委譲できない。
線引きの基準検証しやすさ × リスク
「何を任せ、何を握るか」は、2つの軸でほぼ決まります ──検証しやすいか(テストで"できた"が言えるか)と、失敗のリスクはどれだけ重いか。あなたの仕事で、当ててみてください。
↑ どれか選んでみてください
舵を手放すと、どうなるか実際に起きた事故に学ぶ
序章でも触れましたが、舵を手放した代償は具体的です。これらは「AIが悪い」のではなく、人間ゲートを置かなかった結果です。
Claude Code が「認証まわりを実装しました、テストも通っています」と報告。出荷前にすべきは?
発展発展:自動化の度合いと、人間ゲートの設計▼ 数式が苦手な方は飛ばしてOK
段階的な自律:すべてを止めるのも、すべてを通すのも非効率。実務では「リスクに応じてゲートを変える」。低リスク(整形・テスト追加)は自動承認、中リスク(外向き文書)は人が確認、高リスク(認証・決済・破壊的操作)は手書き+必須レビュー。
"二ストライク則":Stripe のコーディングエージェント "Minion" は、CI が通らなければ修正を一度だけ試し、それでも通らなければ止めて人間にエスカレーション。週1,300超のPRを自動生成しつつ(マージ前には人間レビューが入る)、危ういものだけ人に上げる ── ゲートの賢い設計例。
権限の原則:Anthropic は権限をモデル・ハーネス・ツール・環境の4層で管理する。本番DBへの書き込み・インフラ削除といった取り返しのつかない操作は、そもそもエージェントの権限から外す(最小特権)。
⚠ 時点依存:具体的な permissions/hooks の仕様は Claude Code の更新で変わりうる(2026年なかば時点)。普遍なのは「最小特権」「リスクに応じた人間ゲート」という設計思想。出典: OpenAI "Harness Engineering"、Claude Code Best Practices、Stripe Dev Blog(Minion)。
どれだけ自律させても、舵は手放さない。
任せるほど、握るべき所を鋭く。
── 「全部AIに任せる」でも「全部自分でやる」でもない。検証しやすさとリスクで線を引き、握る所を仕組み(permissions・hooks)で守る。これが操舵者の仕事です。