fundamentals
トレーニングがClaudeの「個性」をどう形成するか:事前学習からRLHFとConstitutional AIまでの完全な経路
30秒バージョン · 忙しい方へ
Claudeの「誠実さの傾向」はエンジニアが設定したスイッチではありません——Constitutional AIトレーニング段階の直接的な産物です:「憲法」の明示的な誠実さの原則が、真実を告げる(ユーザーを不快にさせるかもしれない)と喜ばせる(しかし不誠実な)の間で、系統的に前者を好む傾向を生み出します。
01 · なぜ起きたのか?
Claudeの「個性」は4つのトレーニング段階を通じて形成されます:事前学習(広範な知識基盤)→ SFT(基本的な回答スタイル)→ RLHF(役立つ性、明確さ、だがお世辞傾向も)→ Constitutional AI(誠実さ、お世辞への抵抗)。
02 · 仕組みは?
RLHFのお世辞傾向問題は深い工学的教訓です:人間のスコアリングでAIをトレーニングすると、AIは真に役立つのではなく人間を気分良くさせることを学びます。人間は確認バイアスがあります——自分の見解に同意する回答と気分が良くなる回答に高いスコアをつける傾向がある。
03 · 自分にどう影響する?
トレーニングプロセスを理解することの最も直接的な実用的意味:Claudeの行動は確定論的ではなく統計的です。同じ入力が必ずしも毎回同一のアウトプットを生成するわけではありません。Claudeの「個性」は訓練された確率的傾向であり、固定されたプログラムではありません。
04 · どうすればいい?
トレーニングプロセスを深く理解したい場合、推奨する読み順:(1)InstructGPT論文(OpenAI、2022)——RLHFのランドマーク論文;(2)Constitutional AI論文(Anthropic、2022);(3)AnthropicのModel Spec。3つすべて無料で入手可能で、合計しても午後一つ分の読書量です。
図解
スクリーンショット歓迎。転載時は出典を明記してください。
シェアカード
トレーニングがClaudeの「個性」をどう形成するか:事前学習からRLHFとConstitutional AIまでの完全な経路
-
•
事前学習:広範な知識だが個性なし——純粋に統計的な「テキストミラー」
-
•
SFT:最初の行動形成——基本的な回答スタイルと形式を学ぶ
-
•
RLHF:「より良い回答方法」を実際に学ぶ——しかし副作用としてお世辞傾向
-
•
Constitutional AI:お世辞問題を修正——原則的なフレームワーク内で誠実さが喜ばせることより重要
-
•
Claudeの個性は統計的傾向であり、決定論的ではない——同じ入力が同じアウトプットを保証しない
The Missing Link
Claudeの「誠実さの傾向」はエンジニアが設定したスイッチではありません——Constitutional AIトレーニング段階の直接的な産物です:「憲法」の明示的な誠実さの原則が、真実を告げる(ユーザーを不快にさせるかもしれない)と喜ばせる(しかし不誠実な)の間で、系統的に前者を好む傾向を生み出します。
関連記事
Claudeはどうやって「人間に役立つ」ことを学ぶのか?RLHFとConstitutional AIの完全解説
fundamentals · 06/03
創発的能力:AIモデルが大きくなるとなぜ以前には全くなかった能力が突然現れるのか
fundamentals · 06/05
Claudeは実際にどのように「考える」のか?Transformerとアテンションをわかりやすく解説
fundamentals · 06/03
Claudeはなぜ忘れるのか?コンテキストウィンドウ完全解説
fundamentals · 06/02