Talkie:來自 1930 年的 13B 復古語言模型
我們介紹了 talkie-1930-13b,這是一個完全基於 1931 年以前歷史文本訓練的大型語言模型,旨在探索 AI 的預測能力、在無現代數據污染下的泛化能力,以及數據多樣性對模型發展的影響。
背景
這篇文章介紹了名為 Talkie 的 13B 參數語言模型,其特殊之處在於完全使用 1931 年之前的歷史文本進行訓練。這項由 Nick Levine、David Duvenaud 與 OpenAI 早期核心成員 Alec Radford 合作的研究,旨在透過「復古語言模型」模擬與過去時代的人對話,並藉此探討模型在無現代資訊污染的情況下,是否能預測未來或獨立推導出後來的科學發現。
社群觀點
Hacker News 的討論首先聚焦於這類模型的科學價值與技術啟發。有評論者指出,模型在完全未接觸過現代程式語言的情況下,僅憑少數範例就能完成簡單的 Python 程式碼修改,這有力地反駁了將大型語言模型僅視為「隨機鸚鵡」的觀點,展現了模型超越訓練資料的泛化能力。部分讀者對此感到興奮,認為若能進一步提升模型規模,或許能驗證模型是否具備獨立發現廣義相對論或後世數學理論的潛力。
然而,關於「復古」與「真實性」的定義引發了不小的爭議。有批評者質疑,雖然研究團隊宣稱模型不具備現代知識,但實際上在訓練流程中仍難以完全杜絕資料污染,導致模型仍帶有部分時代錯誤的認知,這與其宣稱的「構造性無污染」目標有所出入。此外,針對「模擬歷史人物」的願景,有觀點認為這在本質上是困難的。以亞里斯多德為例,由於絕大部分的歷史背景與私人對話資料早已遺失,即便模型讀遍了現存文獻,也如同試圖重組破碎的咖啡杯,難以真正還原古人的思維邏輯。
在技術實作層面,社群成員討論了本地運行的硬體門檻。雖然 13B 模型對於擁有 24GB 顯存的用戶來說尚可負擔,但對於硬體較舊的玩家仍具挑戰,有建議指出可透過 llama.cpp 等工具進行層級分割來克服顯存不足。另有意見提出不同的實作路徑,認為與其從頭訓練一個復古模型,不如利用現有的強大模型配合嚴謹的系統提示詞,讓其扮演維多利亞時代的紳士,或許也能達到類似的對話效果。此外,也有人感嘆這類研究實現了賈伯斯生前曾預言的願景:讓電腦成為能與古聖先賢互動的媒介。
延伸閱讀
在討論中,社群成員分享了其他類似的復古模型專案,例如在 GitHub 上的 TimeCapsuleLLM,該專案同樣致力於透過特定時空的資料訓練來消除現代偏見。此外,留言也提及了 Calcifer Computing 在時間語言模型上的先驅工作,以及賈伯斯在 1985 年預言未來電腦將能回答亞里斯多德式問題的歷史訪談影片。
相關文章
其他收藏 · 0