RLHFとは?

読み方: アールエルエイチエフ

30秒まとめ

人間のフィードバックを使ってAIモデルの出力を改善する強化学習手法。AIの安全性向上に不可欠。

RLHFの意味・定義

RLHF(Reinforcement Learning from Human Feedback、人間のフィードバックによる強化学習)は、人間の評価や好みに基づいてAIモデルの出力品質を向上させる学習手法です。まずLLMを事前学習させた後、人間の評価者がモデルの複数の出力を比較・ランク付けし、そのフィードバックを使って報酬モデル(Reward Model)を訓練します。次に、この報酬モデルを使って強化学習を行い、人間の好みに沿った出力を生成するようにLLMを調整します。ChatGPTの成功の大きな要因とされており、有害なコンテンツの抑制、指示への正確な従い方、より自然で有用な回答の生成などを実現しました。Anthropicが提唱するRLAIF(AIフィードバックによる強化学習)やConstitutional AIなど、RLHFを発展させた手法も登場しています。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール