fundamentals
Claudeはどうやって「人間に役立つ」ことを学ぶのか?RLHFとConstitutional AIの完全解説
30秒バージョン · 忙しい方へ
RLHFはClaudeに「人間がどのような回答を好むか」を教え、Constitutional AIは「どのような回答が正しいか」を教えます——両者の組み合わせが、役立つと同時に誠実なClaudeを生み出しています。
01 · なぜ起きたのか?
Claudeのトレーニングには2つの主要な段階があります:事前学習(言語パターンを学ぶ)とアラインメントトレーニング(「人間に役立つ」ことを学ぶ)。アラインメントトレーニングの主な方法はRLHF(人間のフィードバック好みでモデルを誘導)とConstitutional AI(明示的な行動原則のセットに基づく自己評価)です。
02 · 仕組みは?
RLHFはOpenAIによって2017年から2020年代初頭にかけて体系化され、InstructGPTのトレーニングで大規模に適用されました。AnthropicのConstitutional AIはRLHFの革新であり、人間の好みアノテーションへのRLHFの依存という問題を解決します——アノテーターのバイアスと不一致がトレーニング済みモデルの行動に直接影響します。
03 · 自分にどう影響する?
RLHFとConstitutional AIを理解することは、Claudeと他のAIツールの行動の違いを説明するのに役立ちます。純粋にRLHFでトレーニングされたシステムは「お世辞傾向」(sycophancy)が生じやすいです——真実の回答より、ユーザーが聞きたいことを言う傾向があります。Constitutional AIの追加により、ClaudeはユーザーがClaude答えを好まない場合でも誠実を保つようにトレーニングされています。
04 · どうすればいい?
RLHFとConstitutional AIの理解を実際の使用テクニックに変換する:お世辞ではなく正直なフィードバックが必要な場合、Claudeに明示的に伝える「同意する必要はありません——問題がどこにあるかを教えてください」;Claudeがリクエストを断った場合、「なぜ?」と尋ねると通常、定型文ではなく意味のある説明が得られます;Claudeの回答が正確かどうか不確かな場合、「この回答にどれくらい自信がありますか?」と直接尋ねます。
図解
スクリーンショット歓迎。転載時は出典を明記してください。
シェアカード
Claudeはどうやって「人間に役立つ」ことを学ぶのか?RLHFとConstitutional AIの完全解説
-
•
事前学習はClaudeに言語パターンを教え、アラインメントトレーニングは「人間に役立つ」ことを教える
-
•
RLHF:人間のアノテーターが回答を評価し、好みデータがモデルを誘導
-
•
Constitutional AI:モデルに明示的な原則を与え、自己批評と修正をさせる
-
•
両者の組み合わせがClaudeを誠実さ優先、限界を積極的に認め、理由を持って断るようにする
-
•
純粋なRLHFはお世辞傾向を生みやすい;Constitutional AIはその解毒剤
The Missing Link
RLHFはClaudeに「人間がどのような回答を好むか」を教え、Constitutional AIは「どのような回答が正しいか」を教えます——両者の組み合わせが、役立つと同時に誠実なClaudeを生み出しています。
関連記事
Claudeは実際にどのように「考える」のか?Transformerとアテンションをわかりやすく解説
fundamentals · 06/03
Claudeはなぜ忘れるのか?コンテキストウィンドウ完全解説
fundamentals · 06/02
PromptとSystem Promptは実際に何が違うのか?
encyclopedia · 06/03
開発者向けMCP実装:ゼロからはじめる初めてのMCPサーバー構築
mcp · 06/03