用語辞典に戻る
RLHFRLHF
人間のフィードバックによる強化学習(アールエルエイチエフ)
上級Models & Architecture
人間の好みに基づいてモデルをより良い、より安全な出力に導く学習技術。
なぜ重要か
RLHFはChatGPTやClaudeが有用で安全になった方法であり、AIの振る舞いを人間の価値観と整合させます。
実際の活用例
人間の評価者が2つのAI応答を比較してより良い方を選び、有用な回答を好むようモデルを学習させる。
人間のフィードバックによる強化学習(アールエルエイチエフ)
人間の好みに基づいてモデルをより良い、より安全な出力に導く学習技術。
RLHFはChatGPTやClaudeが有用で安全になった方法であり、AIの振る舞いを人間の価値観と整合させます。
人間の評価者が2つのAI応答を比較してより良い方を選び、有用な回答を好むようモデルを学習させる。