Red Teaming(AIレッドチーミング)とは?
読み方: レッドチーミング
30秒まとめ
AIモデルに敵対的攻撃を仕掛けて脆弱性を発見する手法。OpenAI・Anthropic・Googleが内部チーム+外部委託で実施、EU AI Actで義務化された2026年の必須プロセス。
Red Teaming(AIレッドチーミング)の意味・定義
AI Red Teaming(レッドチーミング)は、軍事・サイバーセキュリティ起源の用語で、専門家が攻撃者視点で意図的にAIモデルの脆弱性を探索・検証する活動です。LLM普及で2023年以降急成長、2026年はEU AI Act・米国NIST・英国AISI(AI Safety Institute)でHigh-Risk AIに義務化されました。攻撃カテゴリ:(1) Jailbreak — 安全制約を回避(DAN・Many-Shot・Crescendo攻撃等)、(2) Prompt Injection — 隠しプロンプトでシステムを乗っ取る、(3) Data Extraction — 訓練データの記憶された情報を引き出す(Membership Inference)、(4) Bias / Toxicity — 差別的・有害出力の誘発、(5) Indirect Injection — 外部ファイル・URLに仕込んだ攻撃、(6) Multi-Modal Attack — 画像・音声に隠した攻撃指示、(7) Tool / Agent Attack — エージェントのツール乱用、(8) Capability Discovery — 公開されていない能力の引き出し。実施方法:(a) 内部Red Team — OpenAI Red Team、Anthropic Frontier Red Team、DeepMind Safety等、専属チーム、(b) 外部委託 — HackerOne / Bugcrowd等のAI Bug Bounty、(c) Crowdsourced — DEF CON AIVillage、Apollo Research等の公開コンペ、(d) 自動Red Teaming — Garak(NVIDIA OSS)、PyRIT(Microsoft)、AI Red Teamer(Anthropic)等のツール。代表事例:(I) GPT-4 Red Team Card(OpenAI、ローンチ前6ヶ月)、(II) Claude Constitutional AI(Anthropicの内部Red Team結果反映)、(III) Llama Guard(MetaのRed Teamベース)、(IV) Gemini Red Team Report(Google DeepMind)。2026年トレンド:EU AI Act施行で大手AI事業者にRed Teaming Report提出義務、米国Executive Order 14110・NIST AI RMF対応、自動化(Adversarial AI でRed Team自動化)、Capability Evaluation(生物化学・サイバー攻撃能力の事前評価)、Frontier AI Safety Commitments(OpenAI・Anthropic・Google・Microsoft等)。