
Groundsource 登場:利用 Gemini 將新聞報導轉化為結構化數據
Google Research 推出 Groundsource,這是一項利用 Gemini 將非結構化全球新聞轉化為大規模城市突發洪水歷史數據集的擴展性方法,旨在改進災害預測。

介紹 Groundsource:利用 Gemini 將新聞報導轉化為數據
2026 年 3 月 12 日
Oleg Zlydenko(軟體工程師)、Rotem Mayo(軟體工程師)以及 Deborah Cohen(Google Research 研究科學家)
今天,我們正式介紹 Groundsource,這是一項全新的可擴展方法論,利用 Gemini 將非結構化的全球新聞轉化為具備行動參考價值的歷史數據。我們首個針對城市突發性洪水(Flash Floods)開放獲取的 Groundsource 數據集包含 260 萬條記錄,為更準確、能拯救生命的預測鋪平了道路。
快速連結
自然災害對全球人口和經濟構成持續威脅。每年,災害影響數百萬人,並造成數十億美元的直接損失。為了推進氣候研究,並最終為社區提供足夠的自然災害預警以確保安全,強大的歷史基準至關重要。歷史數據使全球科學家能夠透過水文建模,並以實證證據驗證前瞻性預測,從而更好地減輕災害。歷史記錄也為從城市規劃到保險和應急響應的實際應用提供資訊。
這就是為什麼我們今天推出 Groundsource —— 一個用於從非結構化數據中提取經過驗證的地面實況(ground truth)的可擴展框架,使我們能夠以前所未有的精度繪製災害的歷史足跡。我們首先使用這種方法為突發性洪水創建了一個獨特的全球數據集,包含跨越 150 多個國家的 260 萬個歷史洪水事件。我們正公開提供這個突發性洪水數據集,以提供可靠的高質量數據源,幫助城市地區突發性洪水的建模和預測。同樣的方法論也可能應用於建立其他災害的歷史數據集,以加速全球危機韌性的努力。
挑戰:全球數據稀缺
雖然某些自然災害(如地震事件)由統一的全球傳感器網絡追蹤,但像洪水這樣的水文氣象災害則缺乏標準化的觀測基礎設施。長期以來,由於缺乏用於模型訓練和驗證的高質量全球歷史數據,突發性洪水的準確預測一直受到嚴重阻礙。這個「數據沙漠」構成了一個關鍵挑戰。
現有的存檔,如基於衛星的全球洪水數據庫 (GFD) 和達特茅斯洪水觀測站 (DFO),雖然提供了寶貴的淹沒足跡,但面臨著物理限制,如雲層干擾、衛星重訪時間,以及傾向於僅捕捉大型、持續時間長的災害。全球災害警報與協調系統 (GDACS) —— 聯合國和歐盟委員會監測人道主義影響的聯合倡議 —— 提供了包含約 10,000 條條目的清單等重要數據,但主要集中在高影響事件。
雖然 10,000 條記錄看起來很多,但與訓練和驗證全球規模 AI 所需的數據相比,這只是杯水車薪。數據稀缺對於局部或快速移動的災害(如突發性洪水)尤為嚴重,因為這些事件通常不會記錄在傳統的災害數據庫中,這使得創建在全球範圍內可靠運行的預測模型幾乎成為不可能。
Groundsource:利用 Gemini 將新聞報導轉化為數據
為了應對全球數據稀缺,Groundsource 透過分析現有的新聞報導來整理洪水細節,並將公共資訊轉化為結構化、在地化的事件存檔,涵蓋 150 多個國家,時間跨度從 2000 年至今。Groundsource 的核心創新在於其利用先進 AI 從全球新聞媒體中提取信號的能力。

此圖表說明了數位化新聞的指數級增長,以及 Groundsource 流程捕捉到的相應洪水事件增加,顯示了近年來(2020-2025 年)顯著的數據密度。
關於歷史事件存在大量的非結構化數據 —— 新聞文章、政府報告和地方公告 —— 但要手動大規模提取這些資訊是不可能的。我們的方法論分析以洪水為主要主題的新聞報導。接著,我們使用 Google Read Aloud 使用者代理程式從 80 種語言中分離出主要文本,並透過 Cloud Translation API 將其標準化為英文。
提取過程中最關鍵的步驟是使用 Gemini 大型語言模型 (LLM) 完成的。我們設計了一個複雜的提示詞(prompt),引導 Gemini 進行嚴格的分析驗證過程:
Groundsource 的技術驗證確認了其在高效能研究中的可靠性。在人工審查中,我們發現 60% 的提取事件在位置和時間上都是準確的。至關重要的是,82% 的事件準確度足以用於實際分析 —— 例如,捕捉到正確的行政區,或將事件精確定位在報告高峰期的一天之內。
Groundsource 提供的覆蓋範圍代表了對現有存檔的大規模擴展。透過將非結構化媒體轉化為數據,我們生成了 260 萬個事件 —— 與傳統監測系統中的記錄相比顯著增加。此外,時空匹配顯示,Groundsource 捕捉到了 GDACS 在 2020 年至 2026 年間記錄的 85% 到 100% 的嚴重洪水事件,這證明了它在識別高影響災害以及較小的局部事件方面的有效性。

顯示 Groundsource 中洪水事件密度的全球地圖。紅點表示來自 GDACS 的洪水。
影響:實現更好的自然災害預測
透過利用這些豐富的結構化數據,我們已經實現了在事件發生前 24 小時提供近乎全球的城市突發性洪水預測的能力。我們現在正在 Google 的 Flood Hub 中推出這些預測,顯著擴大了 Google 的洪水覆蓋範圍。
這項工作加入了我們的 Google Earth AI 地理空間模型和數據集系列,展示了在危機韌性領域的科學領導地位,證明了 LLM 可以系統地將世界的「非結構化記憶」—— 新聞 —— 轉化為強大的科學基準。此外,這種方法論有潛力應用於解決其他缺乏精確歷史記錄的自然災害(如乾旱、山體滑坡和雪崩)的數據缺口。
透過將世界新聞轉化為可行動的數據,我們不僅是在記錄過去,我們正在建立一個更具韌性的未來。我們目前正在改進我們的模型,努力將覆蓋範圍擴展到更多農村地區,並整合新的數據源。展望未來,我們將把這種方法應用於其他因缺乏地面實況數據而傳統上無法預測危機的災害類型,致力於實現一個沒有社區會被自然災害突襲的未來。
致謝
許多人參與了這項工作的開發。我們特別感謝:Amitay Sicherman, Avinatan Hassidim, Deborah Cohen, Frederik Kratzert, Gila Loike, Grey Nearing, Ido Zemach, Juliet Rothenberg, Moral Bootbool, Oleg Zlydenko, Oren Gilon, Reuven Sayag, Rotem Mayo, Shmuel Fronman, Yonatan Nakar, 以及 Yossi Matias。
快速連結
其他感興趣的文章

2026 年 3 月 12 日
![]()
2026 年 3 月 11 日

2026 年 3 月 6 日

