RLHF（人間のフィードバックによる強化学習）とは？

読み方: アールエルエイチエフ

30秒まとめ

人間の評価をもとにAIの出力を改善する強化学習手法。LLMの品質向上に不可欠。

RLHF（人間のフィードバックによる強化学習）の意味・定義

RLHF（Reinforcement Learning from Human Feedback、人間のフィードバックによる強化学習）は、人間の評価者がAIの出力を比較・評価し、その評価データを使ってAIモデルを改善する学習手法です。ChatGPTの成功を支えた中核技術として知られています。具体的には、(1)教師あり微調整（SFT）でベースモデルを調整、(2)人間の評価データから報酬モデルを学習、(3)PPO等の強化学習アルゴリズムで報酬モデルに基づきLLMを最適化、という3段階で進みます。有害な出力の抑制、指示への忠実な追従、自然な対話スタイルの実現に効果を発揮しますが、人間の評価者のバイアスが反映されるリスクや、高コストな人的評価が必要という課題もあります。

RLHF（人間のフィードバックによる強化学習）とは？

30秒まとめ

RLHF（人間のフィードバックによる強化学習）の意味・定義

関連するAIツール

ChatGPT

Claude

関連する用語

運営者が開発したAIマーケティングツール

MixCast

AIOPulse

UGCast