WHATISAI第5章

レバー④舵
── 人が握るもの

文脈・検証・分割と来て、最後のレバーは舵(steering)。Claude Code をどれだけ自律させても、 最後に責任を持って舵を握るのは人間です。"Humans steer. Agents execute." ── どこを任せ、どこを握るか。その線引きが、事故と信頼を分けます。

合言葉人が操舵し、エージェントが実行する

OpenAI のハーネス哲学のスローガンが、この章の全てです。

“Humans steer. Agents execute.”— OpenAI, Harness Engineering

Karpathy も同じ線を引きます ──「思考は外注できるが、理解は外注できない」。何を作る価値があるか、どの結果が疑わしいか、どのトレードオフが許容できるか ── これらは舵であり、人間に残る。コードを書く手は委譲できても、舵は委譲できない。

線引きの基準検証しやすさ × リスク

「何を任せ、何を握るか」は、2つの軸でほぼ決まります ──検証しやすいか(テストで"できた"が言えるか)と、失敗のリスクはどれだけ重いか。あなたの仕事で、当ててみてください。

あなたの仕事で、試す:任せるか、握るかタスクをタップしてください。検証しやすさ × リスクで、Claude Code への任せ方の処方が出ます。

↑ どれか選んでみてください

Claude Code での『舵』の握り方
permissions(許可)で、エージェントが触れるツールを制限する(allowlist/自動承認の範囲設定)。 で危険な操作(本番DB書き込み・インフラ削除)に人間ゲートを挟む。そして最小特権 ── エージェントには、必要最小限の権限しか渡さない。「自信満々に見える出力ほど疑う」を、人格でなく仕組みにする。

舵を手放すと、どうなるか実際に起きた事故に学ぶ

序章でも触れましたが、舵を手放した代償は具体的です。これらは「AIが悪い」のではなく、人間ゲートを置かなかった結果です。

認証ロジックの逆転匿名ユーザーに全アクセスを許可。高リスク領域(認証)をレビューなしで通した。→ 認証・決済は必ず人が握る。
シークレットの露出DB認証情報がAPIから取得可能に。最小特権とシークレット管理を人が設計しなかった。→ 権限は最小に。
"slopsquatting"AIが幻覚した存在しないパッケージを、攻撃者が先回り登録。依存追加を無検査で通した。→ 新規依存は人がレビュー。
まず予想してみる

Claude Code が「認証まわりを実装しました、テストも通っています」と報告。出荷前にすべきは?

発展発展:自動化の度合いと、人間ゲートの設計▼ 数式が苦手な方は飛ばしてOK

段階的な自律:すべてを止めるのも、すべてを通すのも非効率。実務では「リスクに応じてゲートを変える」。低リスク(整形・テスト追加)は自動承認、中リスク(外向き文書)は人が確認、高リスク(認証・決済・破壊的操作)は手書き+必須レビュー。

"二ストライク則":Stripe のコーディングエージェント "Minion" は、CI が通らなければ修正を一度だけ試し、それでも通らなければ止めて人間にエスカレーション。週1,300超のPRを自動生成しつつ(マージ前には人間レビューが入る)、危ういものだけ人に上げる ── ゲートの賢い設計例。

権限の原則:Anthropic は権限をモデル・ハーネス・ツール・環境の4層で管理する。本番DBへの書き込み・インフラ削除といった取り返しのつかない操作は、そもそもエージェントの権限から外す(最小特権)。

⚠ 時点依存:具体的な permissions/hooks の仕様は Claude Code の更新で変わりうる(2026年なかば時点)。普遍なのは「最小特権」「リスクに応じた人間ゲート」という設計思想。出典: OpenAI "Harness Engineering"、Claude Code Best Practices、Stripe Dev Blog(Minion)。

第5章のひとこと

どれだけ自律させても、舵は手放さない
任せるほど、握るべき所を鋭く。

── 「全部AIに任せる」でも「全部自分でやる」でもない。検証しやすさとリスクで線を引き、握る所を仕組み(permissions・hooks)で守る。これが操舵者の仕事です。