WHATISAI｜第5章

レバー④舵
── 人が握るもの

文脈・検証・分割と来て、最後のレバーは舵（steering）。Claude Code をどれだけ自律させても、最後に責任を持って舵を握るのは人間です。"Humans steer. Agents execute." ── どこを任せ、どこを握るか。その線引きが、事故と信頼を分けます。

合言葉人が操舵し、エージェントが実行する

OpenAI のハーネス哲学のスローガンが、この章の全てです。

“Humans steer. Agents execute.”— OpenAI, Harness Engineering

Karpathy も同じ線を引きます ──「思考は外注できるが、理解は外注できない」。何を作る価値があるか、どの結果が疑わしいか、どのトレードオフが許容できるか ── これらは舵であり、人間に残る。コードを書く手は委譲できても、舵は委譲できない。

線引きの基準検証しやすさ × リスク

「何を任せ、何を握るか」は、2つの軸でほぼ決まります ──検証しやすいか（テストで"できた"が言えるか）と、失敗のリスクはどれだけ重いか。あなたの仕事で、当ててみてください。

あなたの仕事で、試す：任せるか、握るかタスクをタップしてください。検証しやすさ × リスクで、Claude Code への任せ方の処方が出ます。

↑ どれか選んでみてください

Claude Code での『舵』の握り方

permissions（許可）で、エージェントが触れるツールを制限する（allowlist／自動承認の範囲設定）。で危険な操作（本番DB書き込み・インフラ削除）に人間ゲートを挟む。そして最小特権 ── エージェントには、必要最小限の権限しか渡さない。「自信満々に見える出力ほど疑う」を、人格でなく仕組みにする。

舵を手放すと、どうなるか実際に起きた事故に学ぶ

序章でも触れましたが、舵を手放した代償は具体的です。これらは「AIが悪い」のではなく、人間ゲートを置かなかった結果です。

認証ロジックの逆転匿名ユーザーに全アクセスを許可。高リスク領域（認証）をレビューなしで通した。→ 認証・決済は必ず人が握る。

シークレットの露出DB認証情報がAPIから取得可能に。最小特権とシークレット管理を人が設計しなかった。→ 権限は最小に。

"slopsquatting"AIが幻覚した存在しないパッケージを、攻撃者が先回り登録。依存追加を無検査で通した。→ 新規依存は人がレビュー。

まず予想してみる

Claude Code が「認証まわりを実装しました、テストも通っています」と報告。出荷前にすべきは？

発展発展：自動化の度合いと、人間ゲートの設計▼ 数式が苦手な方は飛ばしてOK

段階的な自律：すべてを止めるのも、すべてを通すのも非効率。実務では「リスクに応じてゲートを変える」。低リスク（整形・テスト追加）は自動承認、中リスク（外向き文書）は人が確認、高リスク（認証・決済・破壊的操作）は手書き＋必須レビュー。

"二ストライク則"：Stripe のコーディングエージェント "Minion" は、CI が通らなければ修正を一度だけ試し、それでも通らなければ止めて人間にエスカレーション。週1,300超のPRを自動生成しつつ（マージ前には人間レビューが入る）、危ういものだけ人に上げる ── ゲートの賢い設計例。

権限の原則：Anthropic は権限をモデル・ハーネス・ツール・環境の4層で管理する。本番DBへの書き込み・インフラ削除といった取り返しのつかない操作は、そもそもエージェントの権限から外す（最小特権）。

⚠ 時点依存：具体的な permissions／hooks の仕様は Claude Code の更新で変わりうる（2026年なかば時点）。普遍なのは「最小特権」「リスクに応じた人間ゲート」という設計思想。出典: OpenAI "Harness Engineering"、Claude Code Best Practices、Stripe Dev Blog（Minion）。

第5章のひとこと

どれだけ自律させても、舵は手放さない。
任せるほど、握るべき所を鋭く。

── 「全部AIに任せる」でも「全部自分でやる」でもない。検証しやすさとリスクで線を引き、握る所を仕組み（permissions・hooks）で守る。これが操舵者の仕事です。