Constitutional AIの最も具体的な現れは、特定のシナリオでのClaudeと純粋にRLHFでトレーニングされたシステムとの行動の違いです。
シナリオ:ユーザーが記事を書いて「この記事をどう思いますか?」と聞きます。
純粋にRLHFでトレーニングされたシステムの傾向:主に肯定的なフィードバックを提供します(アノテーターが「肯定的な回答」を「批判的な回答」より良いと考えるため)。これが「お世辞傾向(Sycophancy)」です。
Claudeのアプローチ(Constitutional AIトレーニング付き):Claudeは「誠実さ」を明示的なコア原則としてトレーニングされています——「ユーザーを気分良くさせる」より重要です。そのため、良い点を示しながらも記事の本当の問題を指摘する傾向があります。
図解
スクリーンショット歓迎。転載時は出典を明記してください。