名詞解析 · core-concepts

Multimodal

多模態

core-concepts 新手

30 秒版 · 給沒耐心的人

AI 能夠同時處理和理解多種類型輸入的能力，包含文字、圖片、文件等。Claude 的多模態能力讓你可以直接上傳截圖、照片、PDF 來提問，不需要把所有資訊轉換成文字。

完整解說 +

01 · 這是什麼？

Multimodal（多模態）描述的是 AI 能同時處理多種類型輸入的能力。「模態」指的是資訊的類型——文字是一種模態、圖片是一種模態。Claude 的多模態能力目前主要包含：文字（一直都有）、圖片（截圖、照片、圖表）、PDF 文件（上傳 PDF，Claude 能讀取全文）。這意味著你不再需要把所有資訊手動轉換成文字——你可以直接上傳截圖問「這是什麼問題」，上傳合約問「有什麼不合理的條款」，上傳圖表問「這個趨勢說明了什麼」。

重要的是：多模態指的是「理解」多種輸入，不是「生成」多種輸出。Claude 能看懂圖片，但它不能幫你生成圖片——那是 DALL-E、Midjourney 等圖像生成模型的工作。

02 · 為什麼存在？

多模態能力解決了一個長期存在的 AI 使用障礙：「你的資訊不一定是文字格式的」。在只有文字 AI 的時代，如果你想讓 AI 分析截圖或圖表，你必須把圖片裡的文字手動打出來——費時又容易出錯。多模態 AI 消除了這個轉換的需要，讓 Claude 能直接「看」和「理解」非文字資訊。技術上，這是透過視覺編碼器（Vision Encoder）把圖片資訊轉換成 Claude 能理解的向量表示，和文字資訊一起送入語言模型處理。

03 · 如何影響你的決策？

多模態能力對日常 Claude 使用影響廣泛。截圖分析（最常用）：電腦出問題，直接截圖丟給 Claude 問「這是什麼問題怎麼解決」，比手動輸入錯誤訊息快很多。文件分析：收到 PDF 直接上傳，問 Claude「這份文件的重點是什麼」。圖表解讀：截圖問 Claude「這個圖表說明了什麼趨勢」。視覺設計回饋：把設計稿截圖給 Claude，問「這個佈局有什麼問題」。

04 · 你該怎麼辦？

多模態的實用技巧：上傳圖片時說清楚你想要什麼——「這個 Python 錯誤訊息是什麼原因？我在用 Flask，Python 3.11。」比只說「這是什麼？」效果更好。PDF 注意事項：超過 100 頁的 PDF 只上傳相關章節；有複雜表格時說「請特別注意第 X 頁的表格」。圖表分析：「請描述這個圖表的主要趨勢，包含具體數字」——明確要求包含數字讓分析更有用。

實際例子 +

工程師小李在 debug 一個 Python 錯誤，但 Traceback 很長，懶得全部手動輸入。他直接截圖，上傳給 Claude，說：「這個 Traceback 是什麼問題？我在用 Django，資料庫是 PostgreSQL。」Claude 分析截圖，識別到 IntegrityError: duplicate key value violates unique constraint，解釋這是因為嘗試插入已存在的 primary key 值，並提供三種解決方案。不需要輸入任何文字，只是截圖和一句話，就得到完整的診斷和解決方案。

圖解

歡迎截圖分享，轉載請註明來源

常見誤解 +

✕ 誤解1

× 誤解一：Claude 的多模態能力等於「它能生成圖片」。多模態指的是「輸入端支援多種類型」，不是「輸出端能生成多種類型」。Claude 能接收圖片輸入，但輸出仍然是文字。生成圖片需要用 DALL-E、Midjourney 等工具。

✕ 誤解2

× 誤解二：上傳圖片給 Claude，它能完美看懂所有細節。Claude 的圖片理解很強，但不完美。複雜手寫字、低解析度圖片、高度壓縮的截圖準確率會下降。對重要資訊（如合約上的關鍵數字）最好搭配文字確認。

這件事跟你有什麼關係 +

直接影響

優點：消除資訊轉換的摩擦；讓 Claude 能處理實際工作裡的文件和視覺資料；截圖描述比文字描述更準確。限制：圖片理解不完美，複雜或低品質圖片準確率下降；不支援視訊輸入；圖片輸入也消耗 Token；輸出仍然是文字。最佳使用方式：把多模態當成「降低資訊輸入門檻」的工具——有圖片、截圖、PDF 要分析時，直接用，不需要轉換。

提問

參照詞條

實用資源

Claude API 狀態 → 模型定價 → Prompt 試驗場 → Token 計算器 → MCP 伺服器目錄 → LLM 評測排行 → 模型比較 →