速報 · AI基礎
RLHFはClaudeに「人間がどのような回答を好むか」を教え、Constitutional AIは「どのような回答が正しいか」を教えます——両者の組み合わせが、役立つと同時に誠実なClaudeを生み出しています。
Sophie Marlowe
·
2026年06月03日
訓練が終わったばかりの言語モデルは、膨大な本を読んでいるが「人間が何を求めているか」を全く知らない学者のようなものです。テキストを生成できますが、必ずしも役立つ、安全、または誠実とは限りません。では、AnthropicはどうやってそれをClaudeに変えたのでしょうか?
## 事前学習は出発点に過ぎない
すべての大規模言語モデルは「事前学習(Pre-training)」から始まります。事前学習後、モデルの能力はすでに印象的です——流暢なテキストを生成し、複雑な意味論を理解できます。しかし「流暢なテキストの生成」は「ユーザーへの有用性」とは等しくありません。これが第2段階「アラインメントトレーニング」が必要な理由です。
## RLHF:人間の好みでモデルを導く
RLHF(Reinforcement Learning from Human...