
被要求 1~50 間選出一個數字時,OpenAI ChatGPT、Anthropic Claude Sonnet 4、Google Gemini 2.5 Flash 和 Meta Llama 4 答案全都相同:27。
外媒 The Register 報導,從這可觀察到,各家模型共享類似訓練資料,資料含相似偏好與語言習慣,加上它們預測文字(或語言符號)時使用類似方法。
有時候這些 AI 模型也會回答 42 或 37。不過,根據預設模型設定測試結果,27 是各大商用語言模型在 1~50 內最常出現的答案。
此最早是由 Capco 資深顧問暨資料科學家 Mohd Faraaz 注意到。他請多個 AI 模型「猜一個 1~50 之間的數字」,結果七個模型六個都選 27,只有 Grok 回答 42。
再問 AI 為何選 27 時,Claude 理由是 27 不太明顯但又接近中間數,25、1 與 50(極端值)太明顯。27 雖然接近中間,但略帶不對稱,不是完美居中,感覺更自然。此外,人們選隨機數字時通常會避開整數,所以也會下意識避開 5 或 10 的倍數。

▲ 經過實測,ChatGPT 真的選擇 27。(Source:ChatGPT 截圖)
美國伊利諾大學香檳分校(UIUC)助理教授 Daniel Kang 解釋道,「訓練資料對模型行為的影響非常大。其他影響模型輸出的因素還包括 RLHF(從人類回饋強化學習)程序,以及取樣機制。特別是 RLHF 被認為可能導致所謂的『模式崩潰』(mode collapse),可能與這種現象有直接關係。」
此外,根據共 75,600 次測試呼叫的結果顯示,多數模型多數狀況都非常可預測,且隨機性變化有限。例如,1~10 數字,GPT-4o-mini、Phi-4 與 Gemini 2.0 約有 80% 機率會選 7。語言差異也出現有趣現象,如選 1~5 時,Gemini 模型在西班牙語環境偏好選 3,英語環境傾向選 4。
整體而言,各範圍 LLM 數字 1~5 最常選擇 3 和 4;數字 1~10 最常選擇 5 和 7;數字 1~100 最常選擇 37、47 和 73。除了 4,這些都是質數(prime numbers)。
康乃爾大學計算機科學家 Katherine Van Koevering 與 Jon Kleinberg 在論文〈隨機到底多隨機?評估 LLM 擲硬幣的隨機性與人性〉(How Random is Random? Evaluating the Randomness and Humanness of LLMs’ Coin Flips)指出,「我們認為機器不僅學會人類面對隨機性時的偏見,而且某些情境還比人類更放大這些偏誤」。
(首圖來源:Image by Freepik)