RAG Evaluation(RAG評価)とは?

読み方: ラグエバリュエーション

30秒まとめ

RAGシステムの検索精度・回答品質・忠実性を定量評価する手法。本番運用前に必須。

RAG Evaluation(RAG評価)の意味・定義

RAG Evaluation(RAG評価)は、Retrieval-Augmented Generation(検索拡張生成)システムの品質を多次元で評価する手法です。主要指標は(1)Retrieval Recall(必要文書を検索できたか)、(2)Retrieval Precision(取得文書のノイズ率)、(3)Faithfulness(生成回答が検索結果に忠実か = ハルシネーション率の逆指標)、(4)Answer Relevance(質問への回答適合性)、(5)Context Recall(提供文脈の網羅性)、(6)Context Precision(重要文脈の上位表示)の6つ。評価フレームワークはRagas、TruLens、ARES、DeepEval、LangSmith、LlamaIndex Evalsが標準。Goldenデータセット(質問・期待回答・参照文書のセット)を構築し、自動評価(LLM-as-a-Judge)と人間評価を組み合わせて運用します。2026年のベストプラクティスは「100-500件のGoldenセットで日次自動評価」「リリース前にFaithfulness 95%以上を目標」「Context Recall低下時はチャンキング・Embeddingモデル・リランカーを順次見直し」。Cohere Rerank 3、Voyage AI rerank-2、Jina Reranker v2 等のリランカー導入でPrecisionは平均30%改善する事例が多いです。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール