問い

AIエージェントをどう止めるか

短い答え

入口でのフィルタリングだけでは止まりません。AIエージェントが外部へ送信・発注・公開する直前に、要求の構造・証拠の十分性・権限・承認条件を検査し、満たさなければ止める設計が要ります。C³ではこれをLOGOS Protocol(構造を見るTGと証拠を見るEAG)とITS APIとして整理し、判定をPASS / HOLD / ESCALATEで返します。

なぜ入口フィルタだけでは足りないのか

意味内容の良し悪しで判断するフィルタは、言い方・文脈・迂回で抜けられます。攻撃側は意味を変えれば通せるため、意味の判定だけに頼ると防御が終わりません。止めるべき点は、生成の瞬間ではなく、外部へ作用する直前です。

構造と証拠で見るという考え方

TG(Topological Gatekeeper)は意味ではなく、要求の構造・経路・逸脱を見ます。EAG(Evidence Adequacy Gate)は、実行や公開の前に判断材料が足りているかを見ます。言い方を変えても、構造の逸脱や証拠の不足は変わりません。

HOLDは失敗ではなく保留

判定はPASS / HOLD / ESCALATEの三つです。HOLDは『失敗』ではなく『情報・権限・安全条件が未解消なので一旦止める』状態として扱います。止まれること自体を運用の正常な状態に含めるのが設計の要点です。

C³での対応

このページで言わないこと

  • - 攻撃を受けない状態の保証
  • - AI安全性の保証
  • - 本番運用認証・第三者認証
  • - HOLDが常に被害を防ぐという保証

Metadata