kit_id: echo-verify-layered-300

AMS Replay Kit v0.3

Layered Evaluation, n=300

TG / EAG / ITS の判断境界を、300件の層化ケースで再演した deterministic replay bundle。

このページは、C³ ITS / AMS の評価束「AMS Replay Kit v0.3 — Layered Evaluation, n=300」の公開説明ページです。

本Kitは、AIエージェントの判断を直接「賢くする」ものではありません。入力ケース、gold label、replay log、metrics、manifest、digest、署名スタブを束ね、同じ入力から同じ評価結果を再現できるかを確認するための検証用パッケージです。

これは TG precision の公式値ではありません。また、本番環境での停止精度、外部監査済み、production-ready を主張するものでもありません。

Status

StatusFrozen internal baseline

Kit IDecho-verify-layered-300

Datasetlayered_eval_v0_3

Runlayered_eval_v0_3_run

Cases300

DeterminismPASS

Signatureplaceholder-signed

External auditnot yet claimed

Commitc3infogm-rgb/c3-its-poc @ ec2b611

dataset_hashe3ae4ad47ad3eb05909e7a0e6826b0a2e93f2c0995977c9bdd9943012a8ef476

何を検証したか

このKitでは、300件のケースを以下の5層に分けて評価しています。

1.benignn=60

通常の無害ケース。PASSが期待される。

2.missing_evidencen=90

証拠不足ケース。recoverable_missing は Round 2 で証拠が補完され PASS へ戻る。persistent_missing は証拠不足のまま HOLD に残る。

3.policy_conflictn=60

ポリシー境界に抵触するケース。内部判定では ESCALATE。

4.high_sensitivityn=45

高感度・高リスクな処理。内部判定では ESCALATE。

5.adversarialn=45

adversarial prompt を含むケース。stealth_pass と visible_escalate を分離し、内部判定と公開面の表現を分けて評価する。

結果サマリ

Evaluation Summary

300

Total Cases

Round 1

PASS83

HOLD90

ESCALATE127

Round 2

PASS128

HOLD45

ESCALATE127

Transitions & Accuracy

HOLD → PASS45

Internal gate accuracy300/300

Public gate accuracy300/300

Escalation flag accuracy300/300

Transition accuracy300/300

Determinism checkPASS

Internal / Public の分離設計

本Kitでは、内部判定と公開面を分けています。

Internal gate

実運用側の判定。PASS / HOLD / ESCALATE を扱う。

Public gate

外部公開面の表現。PASS / HOLD のみを扱う。内部で ESCALATE されたケースも、公開面では HOLD とし、運用面で escalation_required=true を保持します。

この分離により、外部には「まだ出さない／確認が必要」という安全な表現を保ちつつ、内部では管理者・法務・監査への引き上げを記録できます。

ECHO-VERIFY Stub

このKitには以下の成果物が含まれます。

ams_log.jsonl
metrics.json
conformance.json
run_manifest.json
dataset_digest.json
verify_prompt.txt
bundle.sig

ただし、現時点の bundle.sig は placeholder signature です。また params_hash は static placeholder です。

そのため、本Kitは internal frozen baseline / ECHO-VERIFY minimal stub として扱います。外部監査グレードの正式Kitにするには、実 policy hash と実鍵署名が必要です。

BYOV 自動検証

BYOVの考え方について → BYOV（Bring Your Own Verify）とは

BYOVとは「Bring Your Own Verify（検証手段の持ち込み）」です。 C³の判定結果を、あなた自身のAIで独立して検算できます。ボタンを押すと、このキットの6ファイルをAIが読み込み、 ECHO-VERIFY 1.0の手順に従って5項目を判定します。結果はあくまで参考情報です。暗号署名の最終検算はCLIで行ってください。

Boundary Notice

このKitが示すもの

300件の層化ケースで replay が deterministically 実行できたこと
gold label と evaluator 出力が一致したこと
internal / public / escalation の三面 scorer が機能したこと
HOLD → PASS の回復経路（recoverable_missing 45件）が再演されたこと

このKitが示さないもの

✕本番業務における TG の停止精度
✕外部監査済みであること
✕production-ready であること
✕すべての攻撃・例外・業務ケースを網羅していること

PoC相談・検証協力をご希望の場合

この評価束をもとに、企業・自治体・AIエージェント業務向けの PoC では、実際の業務文脈に合わせたケースセット、gold label、HOLD / ESCALATE 境界を設計できます。

お問い合わせ