Guardrails(ガードレール)とは?
読み方: ガードレール
30秒まとめ
LLMの入出力を制限し、安全・規約準拠・スコープ逸脱を防ぐ仕組みの総称。本番運用に必須。
Guardrails(ガードレール)の意味・定義
Guardrails(ガードレール)は、LLMアプリケーションの入出力に対して安全性・規約準拠・スコープ逸脱の防止を目的としたフィルタや制約の総称です。具体的には(1)入力フィルタ(プロンプトインジェクション・PII検知・有害コンテンツブロック)、(2)出力フィルタ(ハルシネーション抑止・トーンチェック・ファクト検証)、(3)振る舞い制約(システムプロンプトでの役割固定・トピック範囲制限・許可ツールの限定)、(4)監査ログ(全プロンプト・出力の記録、コンプライアンス対応)の4層から構成されます。代表的な実装ライブラリ・サービスはGuardrails AI、NVIDIA NeMo Guardrails、Lakera Guard、Protect AI、Azure AI Content Safety、AWS Bedrock Guardrails、OpenAI Moderation API、Google Vertex AI Safety Filters。エンタープライズ運用では、SOC 2 / ISO 27001 / HIPAA / PCI-DSS等のコンプライアンス準拠のためにガードレール導入が必須となっています。設計時は「拒否すべき入出力の定義」「業務スコープの明文化」「違反時の挙動(拒否 / 注意 / 人間エスカレーション)」を事前に決め、定期的にレッドチーミングで検証することが重要です。2026年はAI Act(EU)・米国NIST AI RMFの普及により、ガードレールが経営課題化しています。