RAG Evaluation（RAG評価）とは？

読み方: ラグエバリュエーション

30秒まとめ

RAGシステムの検索精度・回答品質・忠実性を定量評価する手法。本番運用前に必須。

RAG Evaluation（RAG評価）の意味・定義

RAG Evaluation（RAG評価）は、Retrieval-Augmented Generation（検索拡張生成）システムの品質を多次元で評価する手法です。主要指標は(1)Retrieval Recall（必要文書を検索できたか）、(2)Retrieval Precision（取得文書のノイズ率）、(3)Faithfulness（生成回答が検索結果に忠実か = ハルシネーション率の逆指標）、(4)Answer Relevance（質問への回答適合性）、(5)Context Recall（提供文脈の網羅性）、(6)Context Precision（重要文脈の上位表示）の6つ。評価フレームワークはRagas、TruLens、ARES、DeepEval、LangSmith、LlamaIndex Evalsが標準。Goldenデータセット（質問・期待回答・参照文書のセット）を構築し、自動評価（LLM-as-a-Judge）と人間評価を組み合わせて運用します。2026年のベストプラクティスは「100-500件のGoldenセットで日次自動評価」「リリース前にFaithfulness 95%以上を目標」「Context Recall低下時はチャンキング・Embeddingモデル・リランカーを順次見直し」。Cohere Rerank 3、Voyage AI rerank-2、Jina Reranker v2 等のリランカー導入でPrecisionは平均30%改善する事例が多いです。

RAG Evaluation（RAG評価）とは？

30秒まとめ

RAG Evaluation（RAG評価）の意味・定義

関連するAIツール

LangSmith

関連する用語

運営者が開発したAIマーケティングツール

MixCast

AIOPulse

UGCast