模型「訓練」是什麼意思,訓練完之後它學到了什麼?
訓練是讓模型從大量文字資料裡調整內部參數的過程。你可以把 LLM 想成一個有數百億個數值(叫做「參數」或「權重」)的巨大計算器。訓練的過程是:給它大量的文字,讓它不斷預測下一個 token 是什麼,如果預測錯了就調整那些數值,讓它下次預測得更準。這個過程反覆進行幾千億次,直到那些數值達到一個讓預測很準確的狀態。
訓練完之後,模型學到的不是「一份知識清單」,而是「語言的統計規律」——什麼樣的詞跟在什麼樣的詞後面、什麼樣的概念跟什麼樣的概念相關。這讓它能夠在沒有見過某個特定問題的情況下,生成聽起來合理的回答——因為它理解語言的結構和模式。
為什麼 Claude 每次說的話都略有不同,即使問一樣的問題?
主要原因是 temperature(溫度)設定。即使在較低溫度的設定下,模型也不是百分之百選最高機率的 token——它是從一個機率分布裡取樣。只要不是 temperature 設為 0(完全確定性),每次取樣的結果都可能有些許不同。
另一個原因是上下文的敏感性:即使你覺得你問了「一模一樣的問題」,對話裡可能有細微差別(例如你之前說的話、訊息送出的時機、系統層面的微小差異),都會影響模型對接下來最可能出現的 token 的判斷。這種不確定性對創意任務是優點(每次結果不同),但對需要精確一致性的任務(例如程式生成)是要注意的特性。
LLM 有沒有真正「理解」它說的東西?
這是一個哲學性很強的問題,目前沒有定論,但可以描述我們知道的事實。LLM 確實學到了語言的複雜結構和概念之間的關係,能夠以一種非常複雜的方式進行類比、推理、和組合不同的知識。這讓它在很多情況下表現得「好像理解了」。
但它的「理解」和人類的理解在本質上不同。人類的理解建立在身體感知、社會經驗、情緒和現實世界的互動上。LLM 的「理解」建立在語言模式的統計關係上——它知道「火」這個詞通常和「熱」「危險」「光」等詞一起出現,但它沒有感受過熱的感覺。這個差別在大多數實際應用中不重要,但在要求情緒共鳴、具身判斷或需要現實世界真實感知的場景裡,這個差別就顯現出來了。
進階:「模型比較聰明」是什麼意思,更多參數等於更聰明嗎?
「更聰明」在 LLM 的語境裡是個模糊的詞,通常指的是在特定基準測試上表現更好——例如數學推理、程式生成、多步驟邏輯。更多參數(更大的模型)通常確實和更好的基準表現相關,但這個關係不是線性的,而且有很多例外。
首先,同樣參數數量的模型,訓練資料的品質和多樣性、訓練技術的設計都可能讓結果差很多。其次,更大的模型在某些任務上更好,但在需要速度和成本效益的任務上,較小模型可能更適合。最重要的是:「更聰明」和「對你的任務更合適」不是同一件事。Claude Sonnet 在很多日常任務上的表現足夠好,而且比 Opus 快很多;Opus 的優勢主要在複雜推理和長篇分析這類邊界任務上。
「AI 是怎麼回答你問題的?」這個問題比你想的更有趣,而且理解它之後,你會更知道怎麼讓它工作得更好。這篇文章用不需要技術背景的方式解釋 LLM(大型語言模型)生成文字的實際機制——不是「它學了很多東西」這種程度的說明,而是真的解釋它每次說話時在做什麼。
LLM 生成文字的方式,不是像人一樣先想好整句話再說出來。它的做法更接近:看著目前所有的輸入,選出下一個最可能的 token(語言單位),把那個 token 加到輸出裡,再重複這個過程,直到結束。
Token 是語言模型的基本單位,可以理解成比字還小一點的東西——英文大概每 4 個字母是一個 token,中文大概 1-2 個漢字是一個 token。「The cat sat」這句話大概是 3-4 個 token。模型每次生成一個 token,然後把它加進上下文,再生成下一個,如此反覆。
每次要選下一個 token,模型不是隨機猜的,也不是從固定的規則查出來的。它的內部有一個龐大的數值計算,把當前所有的上下文轉換成一個機率分布——也就是「接下來每個可能的 token 出現的機率各是多少」。
舉例來說,如果你問「台灣的首都是」,模型算出來的機率分布裡,「台北」這個 token 的機率可能高達 99%,其他選項機率都很低。如果你問的是「寫一首關於海洋的詩,第一行是」,可能的下一個 token 就很多,機率分散在許多候選詞上。
機率分布算出來之後,模型要從中選一個 token。這裡有一個叫做temperature(溫度)的參數控制選擇方式。溫度低(接近 0)的時候,模型幾乎一定選機率最高的那個,輸出非常確定、一致、適合需要精確性的任務(例如查事實、寫程式)。溫度高的時候,模型有更高的機率選到機率比較低的 token,輸出更多樣、更有創意、也更可能出現意外的結果——適合創意寫作,但也可能讓回答更容易跑偏。
Claude 在不同任務上有不同的預設溫度設定,你在 API 裡也可以自己調整。了解這個機制,就能理解為什麼同樣的問題問兩次,有時候答案不完全一樣。
LLM 的運作方式決定了它的一個根本特性:它生成的每個 token 都是「在目前上下文下最可能出現的延續」,而不是「確認真實後才說出來的事實」。換句話說,它不知道什麼時候該停下來說「我不知道」——它會繼續生成聽起來合理的延續,即使那個延續是錯的。
這就是為什麼 AI 會「幻覺」(hallucination)——不是因為它在說謊,而是它的運作方式本質上是「預測下一個最可能的詞」,而不是「查詢事實資料庫後輸出正確答案」。理解這個,你就知道為什麼在需要高精確度的任務上,還是要驗證 AI 的輸出。
理解 LLM 的生成機制,最直接的實用影響有兩個。第一,你知道它不是有記憶的人——它每次回答都是從頭讀一遍目前對話裡的所有內容,而不是靠某種長期記憶。第二,你知道它輸出的是「語言上最合理的延續」而不是「驗證過的事實」。這讓你更能正確地使用它:把它當成一個語言能力強大的協作者,而不是一個知識全面且永遠正確的百科全書。