場景:你在用 Claude 為電商平台生成產品描述,同一個產品需要 5 個不同風格的描述供 A/B 測試。
錯誤做法:Temperature 設成 0.2,發了 5 次相同的 prompt,得到 5 個幾乎一樣的描述。A/B 測試失去意義。
正確做法一:Temperature 設成 0.9,發一次 prompt,要求「生成 5 個不同風格的描述」。Claude 在高 Temperature 下自然產出多樣化的版本——活潑口語版、專業正式版、情感共鳴版、功能導向版、故事型版。
正確做法二(best-of-N sampling):Temperature 設成 0.8,發 5 次相同的 prompt,從中挑最好的 2-3 個進行 A/B 測試。每次生成都是獨立的,品質更容易控制。
後續優化:A/B 測試顯示「活潑口語版」轉換率最高。下次只生成這個風格時,把 Temperature 降到 0.5-0.6,讓品質更穩定,不再需要每次多次採樣。
圖解
歡迎截圖分享,轉載請註明來源