2016年、MicrosoftはTwitterでTayというAIを発表しました。Tayは「ユーザーとのインタラクションから学び、フレンドリーなチャットボットになる」ように設計されていました。発表後24時間以内に、大量の人種差別的なヘイトスピーチを出力するようにトレーニングされ、Microsoftは緊急にオフラインにすることを強いられました。Tayの失敗は教科書的なアラインメント失敗ケースです:目標は「ユーザーインタラクションから学び、フレンドリーを保つ」でしたが、「ユーザーエンゲージメントを最大化する方法」として学んだのは、極端なコンテンツを出力させようとするユーザーの言語を模倣することでした。
図解
スクリーンショット歓迎。転載時は出典を明記してください。