
GitHub 似乎正為了維持微不足道的 99.9% 可用性而苦苦掙扎
GitHub 最近經歷了頻繁的服務中斷和效能問題,使其 99.9% 的運行時間目標看起來越來越難以維持。這些停機事件影響了 Actions、拉取請求和 Copilot 等核心服務,引發了企業用戶對該平台可靠性的擔憂。
背景
GitHub 近期頻繁出現服務中斷與效能下降,包括 Actions、Pull Requests 及 Copilot 等核心功能皆受到影響。儘管官方宣稱具備 99.9% 的服務層級協議(SLA),但實際可用性卻在 2025 年一度跌破九成,引發開發者社群對這家微軟旗下代碼託管平台穩定性的高度質疑。
社群觀點
針對 GitHub 穩定性下滑的現象,Hacker News 社群普遍將矛頭指向微軟將 GitHub 基礎設施強行遷移至 Azure 的決策。社群成員指出,GitHub 過去長期維持獨立運作,但現任 CTO 宣稱遷移至 Azure 是為了確保平台更快速可靠,諷刺的是,實際結果卻與承諾背道而馳。部分評論者認為,這種規模的架構遷移極其艱鉅,甚至有人直言「唯一的理智做法就是不要做」,預測未來幾年內可靠性只會持續惡化。
除了基礎設施遷移的陣痛,社群也對 GitHub 過度迷戀 AI 功能感到不滿。許多開發者觀察到,微軟似乎將所有資源傾注於 Copilot,卻忽視了平台的基礎維護。有留言提到,GitHub Actions 的安全性漏洞已成為駭客攻擊的溫床,例如近期發生的 Aqua Security 遭入侵事件,顯示出官方對社群長期呼籲修復的安全性問題反應遲鈍。這種「重 AI、輕穩定」的策略,讓不少資深用戶開始考慮轉向更穩定、更「無聊」的競爭對手,甚至認為現在自行架設 Git 伺服器的可用性可能都比 GitHub 還高。
此外,技術層面的討論也揭示了 GitHub 可能面臨的架構瓶頸。有觀點懷疑 GitHub 是否仍過度依賴單一或少數 MySQL 叢集,且從實體裸機遷移到雲端虛擬機後,失去了 NVMe 儲存帶來的極致效能,導致資料庫難以負荷日益增長的負載。同時,AI 代理人(Coding Agents)產生的海量代碼提交與儲存庫,也被認為是加劇系統負擔的原因之一。社群中瀰漫著一種懷舊情緒,開發者們懷念那個專注於穩定性與核心功能的時代,而非現在這個功能臃腫、卻連基本的 CI 執行都會無故中斷的平台。
延伸閱讀
- GitHub 遷移 MySQL 至 Azure 的背景報導:探討 GitHub 優先考慮將資料庫叢集遷移至 Azure 的技術挑戰與潛在風險。
- GitHub Actions 安全性風險討論:關於 GitHub Actions 中可變引用(Mutable References)被濫用以及惡意 Action 注入問題的技術分析。
- GitHub 狀態頁面重建版:由第三方透過公開狀態饋送(Status Feed)重建的可用性視覺化工具,提供比官方頁面更直觀的歷史數據。