fundamentals

LLM 到底怎麼生成文字？給非工程師的真正解釋

30 秒速讀

LLM 不是在「思考」，它是在一個 token 一個 token 地預測「接下來最可能出現什麼」。這個機制既是它強大的原因，也是它有時會瞎掰的原因。

Ryan Holt · 2026/06/17

完整解析 +

01 · 為什麼發生？

模型「訓練」是什麼意思，訓練完之後它學到了什麼？

訓練是讓模型從大量文字資料裡調整內部參數的過程。你可以把 LLM 想成一個有數百億個數值（叫做「參數」或「權重」）的巨大計算器。訓練的過程是：給它大量的文字，讓它不斷預測下一個 token 是什麼，如果預測錯了就調整那些數值，讓它下次預測得更準。這個過程反覆進行幾千億次，直到那些數值達到一個讓預測很準確的狀態。

訓練完之後，模型學到的不是「一份知識清單」，而是「語言的統計規律」——什麼樣的詞跟在什麼樣的詞後面、什麼樣的概念跟什麼樣的概念相關。這讓它能夠在沒有見過某個特定問題的情況下，生成聽起來合理的回答——因為它理解語言的結構和模式。

02 · 運作原理是什麼？

為什麼 Claude 每次說的話都略有不同，即使問一樣的問題？

主要原因是 temperature（溫度）設定。即使在較低溫度的設定下，模型也不是百分之百選最高機率的 token——它是從一個機率分布裡取樣。只要不是 temperature 設為 0（完全確定性），每次取樣的結果都可能有些許不同。

另一個原因是上下文的敏感性：即使你覺得你問了「一模一樣的問題」，對話裡可能有細微差別（例如你之前說的話、訊息送出的時機、系統層面的微小差異），都會影響模型對接下來最可能出現的 token 的判斷。這種不確定性對創意任務是優點（每次結果不同），但對需要精確一致性的任務（例如程式生成）是要注意的特性。

03 · 如何應用

LLM 有沒有真正「理解」它說的東西？

這是一個哲學性很強的問題，目前沒有定論，但可以描述我們知道的事實。LLM 確實學到了語言的複雜結構和概念之間的關係，能夠以一種非常複雜的方式進行類比、推理、和組合不同的知識。這讓它在很多情況下表現得「好像理解了」。

但它的「理解」和人類的理解在本質上不同。人類的理解建立在身體感知、社會經驗、情緒和現實世界的互動上。LLM 的「理解」建立在語言模式的統計關係上——它知道「火」這個詞通常和「熱」「危險」「光」等詞一起出現，但它沒有感受過熱的感覺。這個差別在大多數實際應用中不重要，但在要求情緒共鳴、具身判斷或需要現實世界真實感知的場景裡，這個差別就顯現出來了。

04 · 我該怎麼做？

進階：「模型比較聰明」是什麼意思，更多參數等於更聰明嗎？

「更聰明」在 LLM 的語境裡是個模糊的詞，通常指的是在特定基準測試上表現更好——例如數學推理、程式生成、多步驟邏輯。更多參數（更大的模型）通常確實和更好的基準表現相關，但這個關係不是線性的，而且有很多例外。

首先，同樣參數數量的模型，訓練資料的品質和多樣性、訓練技術的設計都可能讓結果差很多。其次，更大的模型在某些任務上更好，但在需要速度和成本效益的任務上，較小模型可能更適合。最重要的是：「更聰明」和「對你的任務更合適」不是同一件事。Claude Sonnet 在很多日常任務上的表現足夠好，而且比 Opus 快很多；Opus 的優勢主要在複雜推理和長篇分析這類邊界任務上。

完整內容 +

「AI 是怎麼回答你問題的？」這個問題比你想的更有趣，而且理解它之後，你會更知道怎麼讓它工作得更好。這篇文章用不需要技術背景的方式解釋 LLM（大型語言模型）生成文字的實際機制——不是「它學了很多東西」這種程度的說明，而是真的解釋它每次說話時在做什麼。

它不是「思考」，它是「一次選一個詞」

LLM 生成文字的方式，不是像人一樣先想好整句話再說出來。它的做法更接近：看著目前所有的輸入，選出下一個最可能的 token（語言單位），把那個 token 加到輸出裡，再重複這個過程，直到結束。

Token 是語言模型的基本單位，可以理解成比字還小一點的東西——英文大概每 4 個字母是一個 token，中文大概 1-2 個漢字是一個 token。「The cat sat」這句話大概是 3-4 個 token。模型每次生成一個 token，然後把它加進上下文，再生成下一個，如此反覆。

它怎麼決定「下一個詞是什麼」

每次要選下一個 token，模型不是隨機猜的，也不是從固定的規則查出來的。它的內部有一個龐大的數值計算，把當前所有的上下文轉換成一個機率分布——也就是「接下來每個可能的 token 出現的機率各是多少」。

舉例來說，如果你問「台灣的首都是」，模型算出來的機率分布裡，「台北」這個 token 的機率可能高達 99%，其他選項機率都很低。如果你問的是「寫一首關於海洋的詩，第一行是」，可能的下一個 token 就很多，機率分散在許多候選詞上。

Temperature：控制「有多大膽」的那個旋鈕

機率分布算出來之後，模型要從中選一個 token。這裡有一個叫做temperature（溫度）的參數控制選擇方式。溫度低（接近 0）的時候，模型幾乎一定選機率最高的那個，輸出非常確定、一致、適合需要精確性的任務（例如查事實、寫程式）。溫度高的時候，模型有更高的機率選到機率比較低的 token，輸出更多樣、更有創意、也更可能出現意外的結果——適合創意寫作，但也可能讓回答更容易跑偏。

Claude 在不同任務上有不同的預設溫度設定，你在 API 裡也可以自己調整。了解這個機制，就能理解為什麼同樣的問題問兩次，有時候答案不完全一樣。

為什麼這個機制讓它會「瞎掰」

LLM 的運作方式決定了它的一個根本特性：它生成的每個 token 都是「在目前上下文下最可能出現的延續」，而不是「確認真實後才說出來的事實」。換句話說，它不知道什麼時候該停下來說「我不知道」——它會繼續生成聽起來合理的延續，即使那個延續是錯的。

這就是為什麼 AI 會「幻覺」（hallucination）——不是因為它在說謊，而是它的運作方式本質上是「預測下一個最可能的詞」，而不是「查詢事實資料庫後輸出正確答案」。理解這個，你就知道為什麼在需要高精確度的任務上，還是要驗證 AI 的輸出。

這對你使用 Claude 有什麼實際影響

理解 LLM 的生成機制，最直接的實用影響有兩個。第一，你知道它不是有記憶的人——它每次回答都是從頭讀一遍目前對話裡的所有內容，而不是靠某種長期記憶。第二，你知道它輸出的是「語言上最合理的延續」而不是「驗證過的事實」。這讓你更能正確地使用它：把它當成一個語言能力強大的協作者，而不是一個知識全面且永遠正確的百科全書。

圖解

歡迎截圖分享，轉載請註明來源

提問

相關詞彙

實用資源

Claude API 狀態 → 模型定價 → Prompt 試驗場 → Token 計算器 → MCP 伺服器目錄 → LLM 評測排行 → 模型比較 →