LLM(Large Language Model、大規模言語モデル)は大量のテキストデータでトレーニングされたAIモデルで、主に人間の言語を理解・生成する能力を持ちます。Claude、GPT-4o、GoogleのGemini、MetaのLLaMA——これらはすべてLLMです。
「大規模(Large)」とはモデルのパラメータ数を指します。LLMのコア動作ロジックは「次のトークンを予測する」です——前のテキストに基づいて可能な次のトークンの確率を計算し、最も可能性の高いものを順番に出力して完全な回答を構築します。
02 · なぜ存在する?
LLMの起源は言語モデリング研究にさかのぼります。2017年の「Attention is All You Need」論文がTransformerアーキテクチャを導入しました。研究者はTransformerを大きくしてより多くのデータを与えると「創発(Emergence)」が生じることを発見しました。ClaudeはAnthropicによってこの文脈で開発され、強力なモデルを安全で人間の価値観と一致した状態に保つことに注力しています。