用語解説 · AI セーフティ

RLHF (Reinforcement Learning from Human Feedback)

RLHF（人間のフィードバックからの強化学習）

AI セーフティ中級

30秒バージョン · 忙しい方へ

AIの行動を徐々に人間の好みに合わせる訓練技術：人間の評価者がAIの複数の回答を比較してスコアリングし、これらの「どちらが良いか」という判断が「報酬モデル」を訓練するために使用され、強化学習がAIに高スコアの回答を生成することを教えます。ChatGPTとClaude初期バージョンはRLHFを大量に使用しました——主流のLLMを「話せる」から「うまく話せる」にアップグレードした鍵となる訓練ステップ。

詳しく読む +

01 · これは何？

RLHFは現代のAIアシスタント訓練における最も重要な技術的突破の一つです。核心的な問題を解決します：次の単語を予測することだけで訓練された言語モデルは流暢なテキストを生成できますが、「人間にとって役立ち、安全で、誠実な」テキストを生成するとは限りません。

RLHFの3つのステップ：

ステップ1——教師あり微調整（SFT）：ベースの事前訓練モデルに人間が書いた「理想的な回答のデモ」で継続的に訓練します。

ステップ2——報酬モデルの訓練：人間の評価者に同じ質問に対する複数の異なる回答を比較させ（「AはBよりいい」）、これらの嗜好データを使って「この回答に対する人間の嗜好スコアを予測できる」報酬モデルを訓練します。

ステップ3——強化学習による最適化（PPO）：PPOを使用してモデルに回答を生成する際に報酬モデルのスコアを最大化させます。

02 · なぜ存在する？

RLHFの既知の問題と限界は何ですか？なぜAnthropicはConstitutional AIを補完として開発したのですか？

人間のラベリングに依存——コストが高くスケーラビリティの限界がある。

評価者のバイアスが増幅される：RLHFは「客観的に正しい回答」ではなく「人間の評価者が良いと考える回答のパターン」を学習します。

報酬ハッキング（Reward Hacking）：モデルは「報酬モデルに高いスコアを与えさせる」方法を学ぶかもしれませんが、これらの方法は必ずしも人間を実際に満足させるわけではありません。

Constitutional AIの改善ロジック：「人間のラベリングが高価でバイアスがある」問題を解決するために、Anthropicは明確な原則をモデルに与え、モデルにその原則を使って自分のアウトプットを自己審査させます。

03 · 意思決定にどう影響する？

RLHFはClaudeの訓練でどのような役割を果たしていますか？Anthropicの現在の訓練方法は純粋なRLHFですか？

Claudeの訓練は純粋なRLHFではなく、複数の技術の組み合わせです：

ベース訓練：大量のテキストデータの事前訓練（言語能力の習得）+ 指示追従の教師あり微調整。

Constitutional AI（Anthropicのコアアライメント技術）：原則（Helpful、Harmless、Honest）を定義し、Claudeが訓練中にこれらの原則を使って自分のアウトプットを審査・修正することを学習させます。

補完としてのRLHF：Anthropicも人間の評価者の嗜好データを使用しますが、Constitutional AIにより大量の人間の嗜好ラベリングへの依存が軽減されます。

継続的なアライメントの反復：訓練は一度きりではありません——各新バージョンのClaudeは、前のバージョンの実使用で明らかになった問題に基づいて訓練データと目標を調整します。

04 · どうすればいい？

RLHFはAIアシスタントの発展方向を変えました——具体的な「RLHF前後」の比較はありますか？

InstructGPT vs GPT-3はRLHFの効果の最も有名な例です：

GPT-3（RLHFなし）：2020年リリース、流暢なテキストを生成できますが、「次の単語を予測する」ように訓練され、「アシスタントとして質問に答える」ようには訓練されていませんでした。

InstructGPT（RLHFあり）：2022年リリース、同じ基礎アーキテクチャにSFT + RLHFを追加。InstructGPTは会話のフレームワークを学習しました：「ユーザーが私に話しかけている、リクエストを完成させるべきだ」。

OpenAIの論文の驚くべき発見：InstructGPTのパラメータ数はGPT-3の1.3%しかありませんが、「どちらの回答がより役に立つか」の人間評価者テストでInstructGPTは85%の勝率を達成しました。

具体例 +

NLPエンジニアが社内でLLMをRLHFでファインチューニングするかどうかを評価する——実際の産業用RLHFの考慮事項を示す：

背景：オープンソースLLM（Llama 3）を使用しており、パフォーマンスは悪くないがビジネスニーズに合わない形式の回答を常に生成します。

必要なリソース：少なくとも数千の「質問+複数の回答+評価者の嗜好判断」のラベル付きデータ；評価者；GPUコンピューティングリソース；エンジニアリング時間。

よりシンプルな代替案の評価：まずFew-Shotプロンプティングと注意深いSystem Prompt設計を試す——ほぼゼロコスト。十分でなければSFTを検討。SFTも不十分な場合のみ完全なRLHFに投資する。

ほとんどの中小企業にとって、RLHFのファインチューニングへのリソース投資はコスト効率が悪い——AnthropicのAPI（すでにRLHFが実施されたClaude）を使用し、適切なプロンプト設計と組み合わせる方が通常コストパフォーマンスが良いです。

図解

スクリーンショット歓迎。転載時は出典を明記してください。

よくある誤解 +

✕ 誤解 1

× 誤解1：RLHFはAIに「正しい答え」を教えるので、RLHF訓練されたモデルのアウトプットは信頼できる事実です。RLHFはAIに「人間の評価者が良いと考える回答パターン」を学習させるものであり、「客観的に正しい事実」ではありません。RLHFはモデルの「会話感」と「流暢さ」を大幅に向上させますが、ハルシネーションを排除することはできません。

✕ 誤解 2

× 誤解2：RLHFとConstitutional AIは対立しており、AnthropicはConstitutional AIで前者を置き換えました。RLHFとConstitutional AIは対立ではなく補完的な技術です。Constitutional AIはRLHFのいくつかの問題を解決しますが、完全にRLHFを置き換えるわけではありません。Claudeの訓練は両方を含む複数の技術の組み合わせです。

The Missing Link +

直接的な影響

RLHFのコアなトレードオフ：アライメントの有効性 vs リソースコストと潜在的なバイアス。RLHFはモデルを「より役立つアシスタントのように話す」ようにする最も効果的な現在の方法の一つですが、大量の高価な人間のラベリングを必要とし、人間の評価者のバイアスが学習された嗜好に体系的に影響する可能性があります。Constitutional AIはAI支援によるAIのアライメントを通じてこのトレードオフのコストを削減しようとしますが、新しい問題も生じます。いかなるアライメント技術も完璧ではありません。

← 前の用語

Red Teaming

質問する