
Google 利用歷史新聞報導與 AI 預測突發性洪水
一種解決數據稀缺的新方法:利用大型語言模型將定性報告轉化為定量數據。Google 研究人員透過 Gemini 處理全球 500 萬篇新聞,建立名為 Groundsource 的地理標記時間序列數據集,藉此訓練模型預測突發性洪水,為缺乏氣象基礎設施的地區提供預警。
突發性洪水(山洪)是全球最致命的天氣事件之一,每年造成超過 5,000 人死亡。它們也是最難預測的事件之一。但 Google 認為它已透過一種意想不到的方式破解了這個難題——閱讀新聞。
雖然人類已經收集了大量的天氣數據,但突發性洪水過於短暫且局部化,無法像氣溫甚至河流流量那樣被長期全面地測量。這種數據缺口意味著,儘管深度學習模型預測天氣的能力日益增強,卻仍無法預測突發性洪水。
為了達成目標,Google 研究人員利用 Google 的大型語言模型 Gemini,篩選了來自全球的 500 萬篇新聞文章,分離出 260 萬起不同洪水的報導,並將這些報導轉化為名為「Groundsource」的帶有地理標籤的時間序列數據。根據 Google 研究產品經理 Gila Loike 的說法,這是該公司首次將語言模型用於此類工作。該研究和數據集已於週四上午公開分享。
以 Groundsource 作為現實世界的基準,研究人員訓練了一個基於長短期記憶(LSTM)神經網絡的模型,用以接收全球天氣預報並生成特定區域發生突發性洪水的機率。
Google 的突發性洪水預測模型目前正在該公司的 Flood Hub 平台上,標示出 150 個國家城市地區的風險,並與全球應急機構分享數據。南部非洲發展共同體(SADC)的應急官員 António José Beleza 參與了該預測模型的測試,他表示這幫助了他的組織更迅速地應對洪水。
該模型仍有局限性。首先,它的解析度相當低,僅能識別 20 平方公里範圍內的風險。此外,它的精確度不如美國國家氣象局的洪水警報系統,部分原因是 Google 的模型未納入能實現降雨即時追蹤的地方雷達數據。
然而,這項計畫的部分重點在於,它是為那些地方政府無力投資昂貴氣象感測基礎設施,或缺乏詳盡氣象數據記錄的地區而設計的。
「因為我們彙整了數百萬份報告,Groundsource 數據集實際上助於重新平衡地圖,」Google 韌性團隊(Resilience team)的專案經理 Juliet Rothenberg 本週告訴記者。「它使我們能夠推斷到其他資訊不那麼豐富的地區。」
Rothenberg 表示,團隊希望利用大型語言模型(LLM)從書面定性來源開發定量數據集的方法,能應用於建立其他短暫但對預測至關重要的現象之數據集,例如熱浪和土石流。
Upstream Tech 的執行長 Marshall Moutenot 表示,Google 的貢獻是為基於深度學習的天氣預報模型彙整數據這一日益增長的努力之一。Upstream Tech 同樣使用類似的深度學習模型為水電公司等客戶預測河流流量。Moutenot 共同創立了 dynamical.org,該組織為研究人員和初創公司策劃了一系列可用於機器學習的天氣數據。
「數據稀缺是地球物理學中最困難的挑戰之一,」Moutenot 說。「與此同時,地球數據太多了,但當你想根據事實進行評估時,數據卻又不夠。這是一個獲取數據的非常有創意的做法。」