
在卡內基梅隆大學的研究團隊近日揭示了一個名為 LegoGPT 的全新人工智慧模型,這一創新技術能夠根據文字提示生成實際穩定的樂高結構。這個系統不僅能設計出符合描述的樂高模型,還能確保這些模型在現實中可以逐塊搭建,無論是手動還是通過機器人協助。
研究人員在其發表於 arXiv 的論文中指出,為了實現這一目標,他們構建了一個大型的物理穩定樂高設計數據集,並訓練了一個自回歸的大型語言模型來預測下一個要添加的樂高磚塊。這個模型能夠生成符合提示的樂高設計,例如「流線型的延長船」或「經典風格的汽車,帶有突出的前格柵」。這些設計雖然簡單,僅使用少數幾種磚塊來創建原始形狀,但卻能夠穩定地站立。
研究團隊的領導者艾娃·潘(Ava Pun)表示,許多現有的 3D 生成模型專注於創建多樣化的物體和詳細的幾何形狀,但這些數字設計往往無法在現實中實現。LegoGPT 的創新之處在於它能生成逐步的搭建指導,確保樂高創作不會倒塌。

(圖片來源:avalovelace1.github.io)
為了構建 LegoGPT,研究團隊重新利用了大型語言模型的技術,將其應用於「下一磚預測」而非「下一詞預測」。他們使用了 Meta 的 LLaMA-3.2-1B-Instruct 模型,並增強了這一模型,使其能夠通過數學模型來驗證物理穩定性,模擬重力和結構力。
在訓練過程中,團隊組建了一個名為「StableText2Lego」的新數據集,該數據集包含超過 47,000 個穩定的樂高結構,並配有由 OpenAI 的 GPT-4o 生成的描述性標題。每個結構都經過物理分析,以確保其在現實中可搭建。
LegoGPT 的工作原理是首先生成一系列精確放置的樂高磚。對於每個新磚,系統會確保其不會與現有磚發生碰撞,並且適合建築空間。在完成設計後,系統會使用數學模型來驗證該模型是否能夠穩定地站立。如果某些部分在現實中會倒塌,系統會識別出第一個不穩定的磚,並回溯,移除該磚及其後續的所有磚,然後嘗試不同的方法。這一「物理感知回滾」方法對於團隊的研究至關重要,因為在使用完整系統的情況下,98.8% 的設計能夠保持穩定,而僅使用部分功能時,只有 24% 的設計能夠站立。

(圖片來源:avalovelace1.github.io)
此外,研究人員還擴展了系統的功能,增加了紋理和顏色選項。例如,使用「金屬紫色的電吉他」這一外觀提示,LegoGPT 可以生成一個吉他模型,並將磚塊指定為紫色。為了證明其設計在現實中可行,研究人員使用機器人組裝了AI創建的樂高模型,並且人類測試者也手動搭建了一些設計,顯示出AI確實能創建可搭建的模型。研究團隊的實驗表明,LegoGPT能夠生成穩定、多樣且美觀的樂高設計,與輸入的文字提示高度一致。(首圖圖片來源:(圖片來源:avalovelace1.github.io)