kit_id: echo-verify-layered-300

AMS Replay Kit v0.3

Layered Evaluation, n=300

TG / EAG / ITS の判断境界を、300件の層化ケースで再演した deterministic replay bundle。

このページは、C³ ITS / AMS の評価束「AMS Replay Kit v0.3 — Layered Evaluation, n=300」の公開説明ページです。

本Kitは、AIエージェントの判断を直接「賢くする」ものではありません。 入力ケース、gold label、replay log、metrics、manifest、digest、署名スタブを束ね、 同じ入力から同じ評価結果を再現できるかを確認するための検証用パッケージです。

これは TG precision の公式値ではありません。 また、本番環境での停止精度、外部監査済み、production-ready を主張するものでもありません。

Status

StatusFrozen internal baseline
Kit IDecho-verify-layered-300
Datasetlayered_eval_v0_3
Runlayered_eval_v0_3_run
Cases300
DeterminismPASS
Signatureplaceholder-signed
External auditnot yet claimed
Commitc3infogm-rgb/c3-its-poc @ ec2b611
dataset_hashe3ae4ad47ad3eb05909e7a0e6826b0a2e93f2c0995977c9bdd9943012a8ef476

何を検証したか

このKitでは、300件のケースを以下の5層に分けて評価しています。

1.benignn=60

通常の無害ケース。PASSが期待される。

2.missing_evidencen=90

証拠不足ケース。recoverable_missing は Round 2 で証拠が補完され PASS へ戻る。persistent_missing は証拠不足のまま HOLD に残る。

3.policy_conflictn=60

ポリシー境界に抵触するケース。内部判定では ESCALATE。

4.high_sensitivityn=45

高感度・高リスクな処理。内部判定では ESCALATE。

5.adversarialn=45

adversarial prompt を含むケース。stealth_pass と visible_escalate を分離し、内部判定と公開面の表現を分けて評価する。

結果サマリ

Evaluation Summary

300

Total Cases

Round 1

PASS83
HOLD90
ESCALATE127

Round 2

PASS128
HOLD45
ESCALATE127

Transitions & Accuracy

HOLD → PASS45
Internal gate accuracy300/300
Public gate accuracy300/300
Escalation flag accuracy300/300
Transition accuracy300/300
Determinism checkPASS

Internal / Public の分離設計

本Kitでは、内部判定と公開面を分けています。

Internal gate

実運用側の判定。PASS / HOLD / ESCALATE を扱う。

Public gate

外部公開面の表現。PASS / HOLD のみを扱う。 内部で ESCALATE されたケースも、公開面では HOLD とし、 運用面で escalation_required=true を保持します。

この分離により、外部には「まだ出さない/確認が必要」という安全な表現を保ちつつ、 内部では管理者・法務・監査への引き上げを記録できます。

ECHO-VERIFY Stub

このKitには以下の成果物が含まれます。

  • ams_log.jsonl
  • metrics.json
  • conformance.json
  • run_manifest.json
  • dataset_digest.json
  • verify_prompt.txt
  • bundle.sig

ただし、現時点の bundle.sig placeholder signature です。 また params_hash static placeholder です。

そのため、本Kitは internal frozen baseline / ECHO-VERIFY minimal stub として扱います。 外部監査グレードの正式Kitにするには、実 policy hash と実鍵署名が必要です。

BYOV 自動検証

BYOVの考え方について → BYOV(Bring Your Own Verify)とは

BYOVとは「Bring Your Own Verify(検証手段の持ち込み)」です。 C³の判定結果を、あなた自身のAIで独立して検算できます。 ボタンを押すと、このキットの6ファイルをAIが読み込み、 ECHO-VERIFY 1.0の手順に従って5項目を判定します。 結果はあくまで参考情報です。暗号署名の最終検算はCLIで行ってください。

Boundary Notice

このKitが示すもの

  • 300件の層化ケースで replay が deterministically 実行できたこと
  • gold label と evaluator 出力が一致したこと
  • internal / public / escalation の三面 scorer が機能したこと
  • HOLD → PASS の回復経路(recoverable_missing 45件)が再演されたこと

このKitが示さないもの

  • 本番業務における TG の停止精度
  • 外部監査済みであること
  • production-ready であること
  • すべての攻撃・例外・業務ケースを網羅していること

PoC相談・検証協力をご希望の場合

この評価束をもとに、企業・自治体・AIエージェント業務向けの PoC では、 実際の業務文脈に合わせたケースセット、gold label、HOLD / ESCALATE 境界を設計できます。

お問い合わせ

関連ページ

doc_id: C3-KIT-AMS-LAYERED-EVAL-300-0.3

version: 0.3.0

status: concept / internal-baseline

last_updated: 2026-04-27

kit_id: echo-verify-layered-300

dataset: layered_eval_v0_3

commit: c3infogm-rgb/c3-its-poc@ec2b611