用語解説 · core-concepts

Multimodal

マルチモーダル

core-concepts 新手

30秒バージョン · 忙しい方へ

テキスト、画像、文書など複数の種類の入力を同時に処理・理解するAIの能力。スクリーンショット、写真、PDFを直接アップロードして質問できます。

詳しく読む +

01 · これは何？

マルチモーダルは、AIが複数の種類の入力を同時に処理する能力を表します。Claudeの現在のマルチモーダル能力には：テキスト（常にサポート）、画像（スクリーンショット、写真、チャート）、PDF文書が含まれます。重要なこと：マルチモーダルは複数の入力を「理解する」ことを指し、複数の出力タイプを「生成する」ことではありません。

02 · なぜ存在する？

マルチモーダル能力は長年のAI使用障壁を解決するために登場しました：情報が必ずしもテキスト形式であるとは限らない。技術的には、ビジョンエンコーダーが画像情報をベクター表現に変換し、テキスト情報と一緒に言語モデルで処理します。

03 · 意思決定にどう影響する？

マルチモーダル能力は日常的なClaude使用に広く影響します。スクリーンショット分析（最も一般的）：コンピューターの問題をスクリーンショットしてClaudeに渡します。文書分析：PDFをアップロードして「主なポイントは何か」と質問します。チャート解釈：スクリーンショットして「このチャートのトレンドは何か」と質問します。

04 · どうすればいい？

実用的なマルチモーダルテクニック：画像をアップロードするときは具体的に——「このPythonエラーの原因は何ですか？FlaskとPython 3.11を使っています。」PDF：100ページを超えるPDFは関連セクションのみアップロード。チャート分析：「具体的な数字を含めてこのチャートの主要なトレンドを説明して」。

具体例 +

エンジニアのマイクは長いトレースバックを手動で入力したくありません。スクリーンショットをClaudeにアップロードし「DjangoとPostgreSQLを使っています」と言うだけで、IntegrityErrorエラーの完全な診断と3つの解決策を得ました。

図解