美國國家航空暨太空總署如何打造阿提米絲2號的容錯電腦

Hacker News·大約 13 小時前

美國國家航空暨太空總署為阿提米絲2號任務開發了一套極其精密的容錯運算系統,利用八個中央處理器架構與故障靜默設計,確保在深太空嚴苛的輻射環境中仍能安全運行。

背景

隨著阿提米絲二號(Artemis II)任務即將展開,NASA 揭露了獵戶座太空船(Orion)所搭載的容錯電腦架構。相較於阿波羅時代的手動控制與極限硬體,現代月球任務仰賴高度自動化且具備極端冗餘設計的系統,透過八顆 CPU 組成的自我檢查對(Self-checking pairs)與時間觸發乙太網路,確保在深空高輻射環境下,即便發生硬體故障或位元翻轉,系統仍能維持決定性的運作。

社群觀點

Hacker News 的討論聚焦於現代軟體開發流程與航太工程紀律之間的巨大鴻溝。部分網友對於卡內基美隆大學專家批評「敏捷開發(Agile)與 DevOps 挑戰架構紀律」的說法深感共鳴,認為現代軟體業過度追求迭代速度,導致開發者幾乎遺忘了如何構建具備高度決定性(Deterministic)的系統。在這種觀點下,獵戶座太空船採用的時間觸發乙太網路與嚴格的時框調度,簡直像是來自另一個平行宇宙的技術結晶,展現了對系統韌性與可維護性的極致追求。

然而,這種傳統的航太工程思維也招致了強烈批評。有反對意見認為,NASA 的系統開發過程往往伴隨著嚴重的預算超支、進度延誤與官僚主義,這種「過度設計」的自豪感在尚未成功返回地球前顯得有些言之過早。批評者將其比作當年的 Altavista 搜尋引擎,雖然擁有精良的客製化伺服器,最終卻被 Google 那種利用廉價、易出錯硬體並透過軟體層面容錯的架構所擊敗。他們認為,與其吹捧昂貴的硬體冗餘,不如反思如何像現代雲端巨頭一樣,在不穩定的基礎設施上建立強大的容錯邏輯。

此外,討論串也延伸到了硬體層面的實務限制。針對輻射防護,網友指出太空環境中的抗干擾主要仍依賴較舊的製程(如 250 奈米或 20 奈米 FDSOI 工藝),並搭配物理屏蔽與類似 ECC 的硬體冗餘修正。這引發了關於「軌道資料中心」可行性的質疑,因為若要達到與獵戶座同等級的四倍冗餘,將會大幅消耗運算容量。同時,也有人好奇太陽閃焰等極端事件是否會導致所有冗餘電腦同時失效,這點出了即便有再多硬體備援,軟體層面的共同模式失效(Common mode failure)依然是航太工程中最難攻克的堡壘。

延伸閱讀

  • Google 早期如何利用廉價硬體建構容錯系統:Coding Horror 網誌文章《Building a Computer the Google Way》。
https://cacm.acm.org/news/how-nasa-built-artemis-iis-fault-tolerant-computer/