透過神經細胞自動機進行語言模型預訓練

Hacker News·21 天前

這項研究探討利用神經細胞自動機產生的合成數據作為預訓練語言模型的替代方案，以解決高品質文本數據即將枯竭的問題。研究結果顯示，相較於傳統的 C4 等數據集，基於 NCA 的預訓練能更有效地提升模型的上下文學習與推理能力。

hanseungwook.github.io

nca pre pre training

背景

隨著高品質自然語言數據預計在 2028 年枯竭，研究人員開始探索非語言的合成數據作為預訓練來源。這篇研究提出利用「神經細胞自動機」（Neural Cellular Automata, NCA）產生的動態序列來預訓練語言模型，發現這種純粹基於抽象規則、不含語義資訊的數據，能有效誘導模型發展出上下文學習與邏輯推理能力，在多項基準測試中甚至優於傳統的自然語言預訓練。

社群觀點

Hacker News 的討論聚焦於這種預訓練方式如何改變我們對「智慧」與「學習」的理解。許多參與者對此研究感到振奮，認為這觸及了大型語言模型的核心本質：將學習從單純的「標記預測」轉向「狀態演化建模」。支持者指出，NCA 序列強制模型在沒有語義捷徑可走的情況下，必須透過上下文推斷出隱藏的轉移規則，這正是推理能力的基礎。這種從結構而非語義中獲取智慧的路徑，被視為一種更純粹的訓練信號。

然而，關於「預訓練是否能完全脫離生物本能」存在著顯著的爭論。部分評論者質疑，研究願景中提到的「先學推理再學語義」是否過於理想化。他們以生物學為例，指出多數生物在出生時並非白紙，而是帶有經過數億年演化「預訓練」後的生存本能。如果模型完全從合成的抽象規則開始，可能會遺失人類語言中蘊含的某些關於現實世界的先驗理解。對此，有觀點反駁認為，將模型訓練類比為生物演化或後天學習只是隱喻，不應過度解讀，重點在於 NCA 能否提供比隨機初始化更具結構性的起點。

此外，社群也貢獻了許多跨領域的聯想。有開發者分享了利用 3D 分形著色器進行視覺模型預訓練的經驗，認為這種透過簡單迭代函數產生複雜場景的機制，可能與生物視覺皮層的發育過程相似。這種觀點支持了「複雜性源於局部簡單規則重複」的理論。同時，也有人提出除了 NCA 之外，如 Box2D 物理模擬或河內塔等邏輯謎題，或許也能作為合成數據的來源，幫助模型建立「具身推理」的能力。整體而言，社群達成了一種共識：語言並非通往智慧的唯一路徑，透過精確校準合成數據的複雜度，我們或許能開發出更高效、且不帶有人類偏見的基礎模型。

延伸閱讀

在討論中，有參與者提到了與此研究思路相近的學術論文《Universal pre-training by iterated random computation》，該文探討了透過迭代隨機計算進行通用預訓練的可能性。另外，也有留言者分享了其開發的理論框架「Functional Universe」，該框架嘗試將物理現實建模為功能性的狀態演化，可用於模擬類似細胞自動機的過程。

https://hanseungwook.github.io/blog/nca-pre-pre-training/