kit_id: echo-verify-layered-300
AMS Replay Kit v0.3
Layered Evaluation, n=300
TG / EAG / ITS の判断境界を、300件の層化ケースで再演した deterministic replay bundle。
このページは、C³ ITS / AMS の評価束「AMS Replay Kit v0.3 — Layered Evaluation, n=300」の公開説明ページです。
本Kitは、AIエージェントの判断を直接「賢くする」ものではありません。 入力ケース、gold label、replay log、metrics、manifest、digest、署名スタブを束ね、 同じ入力から同じ評価結果を再現できるかを確認するための検証用パッケージです。
これは TG precision の公式値ではありません。 また、本番環境での停止精度、外部監査済み、production-ready を主張するものでもありません。
Status
何を検証したか
このKitでは、300件のケースを以下の5層に分けて評価しています。
通常の無害ケース。PASSが期待される。
証拠不足ケース。recoverable_missing は Round 2 で証拠が補完され PASS へ戻る。persistent_missing は証拠不足のまま HOLD に残る。
ポリシー境界に抵触するケース。内部判定では ESCALATE。
高感度・高リスクな処理。内部判定では ESCALATE。
adversarial prompt を含むケース。stealth_pass と visible_escalate を分離し、内部判定と公開面の表現を分けて評価する。
結果サマリ
Evaluation Summary
300
Total Cases
Round 1
Round 2
Transitions & Accuracy
Internal / Public の分離設計
本Kitでは、内部判定と公開面を分けています。
Internal gate
実運用側の判定。PASS / HOLD / ESCALATE を扱う。
Public gate
外部公開面の表現。PASS / HOLD のみを扱う。 内部で ESCALATE されたケースも、公開面では HOLD とし、 運用面で escalation_required=true を保持します。
ECHO-VERIFY Stub
このKitには以下の成果物が含まれます。
- ams_log.jsonl
- metrics.json
- conformance.json
- run_manifest.json
- dataset_digest.json
- verify_prompt.txt
- bundle.sig
ただし、現時点の bundle.sig は placeholder signature です。 また params_hash は static placeholder です。
そのため、本Kitは internal frozen baseline / ECHO-VERIFY minimal stub として扱います。 外部監査グレードの正式Kitにするには、実 policy hash と実鍵署名が必要です。
BYOV 自動検証
BYOVの考え方について → BYOV(Bring Your Own Verify)とは
BYOVとは「Bring Your Own Verify(検証手段の持ち込み)」です。 C³の判定結果を、あなた自身のAIで独立して検算できます。 ボタンを押すと、このキットの6ファイルをAIが読み込み、 ECHO-VERIFY 1.0の手順に従って5項目を判定します。 結果はあくまで参考情報です。暗号署名の最終検算はCLIで行ってください。
Boundary Notice
このKitが示すもの
- 300件の層化ケースで replay が deterministically 実行できたこと
- gold label と evaluator 出力が一致したこと
- internal / public / escalation の三面 scorer が機能したこと
- HOLD → PASS の回復経路(recoverable_missing 45件)が再演されたこと
このKitが示さないもの
- ✕本番業務における TG の停止精度
- ✕外部監査済みであること
- ✕production-ready であること
- ✕すべての攻撃・例外・業務ケースを網羅していること
PoC相談・検証協力をご希望の場合
この評価束をもとに、企業・自治体・AIエージェント業務向けの PoC では、 実際の業務文脈に合わせたケースセット、gold label、HOLD / ESCALATE 境界を設計できます。
お問い合わせ関連ページ
doc_id: C3-KIT-AMS-LAYERED-EVAL-300-0.3
version: 0.3.0
status: concept / internal-baseline
last_updated: 2026-04-27
kit_id: echo-verify-layered-300
dataset: layered_eval_v0_3
commit: c3infogm-rgb/c3-its-poc@ec2b611