如何利用合成人格將韓國 AI 代理人植根於真實人口統計數據

如何利用合成人格將韓國 AI 代理人植根於真實人口統計數據

Huggingface·

本文介紹了 Nemotron-Personas-Korea,這是一個包含 600 萬個基於韓國官方統計數據的合成人格資料集,讓開發者能夠構建具備文化意識且人口統計特徵準確的 AI 代理人。

如何利用合成人格將韓國 AI 代理人植根於真實人口統計數據

Nemotron-Personas-Korea 解決了這個問題。該數據集提供了 600 萬個完全合成的人格(personas),這些人格植根於來自韓國統計資訊服務局 (KOSIS)、韓國大法院、國民健康保險公團以及韓國農村經濟研究院的官方統計數據和種子數據。NAVER Cloud 在設計過程中貢獻了種子數據和領域專業知識。

每個人格在人口統計學上都是準確的,但包含零個人識別資訊 (PII)。它的設計充分考慮了韓國的《個人資訊保護法》(PIPA)。韓國也是少數發布官方合成數據生成指南的國家之一,為使用敏感數據的合成版本來引導模型建立了治理規範。此數據集遵循了該方法。

在本教學中,我們將在約 20 分鐘內,利用託管 API,將一個合成人格轉化為部署好的韓國代理人——從篩選數據集到推理。

韓國的主權數據集

Screenshot 2026-04-20 at 5.16.08 PM

Nemotron-Personas-Korea 是使用 NeMo Data Designer 生成的,這是 NVIDIA 用於合成數據的開源複合 AI 系統。該流水線將用於統計植根的機率圖形模型 (Apache-2.0) 與用於韓語敘事生成的 Gemma-4-31B 相結合。人口數據來自 KOSIS(2020-2026 年發布);姓名分佈則透過 namechart.kr 來自韓國大法院。

Screenshot 2026-04-20 at 5.17.09 PM

Nemotron-Personas-Korea 是 Nemotron-Personas 系列的最新成員,該系列還涵蓋了美國、日本、印度、新加坡(與 AI Singapore 合作)、巴西(與 WideLabs 合作)和法國(與 Pleias 合作)。如果您正在構建一個服務於韓國用戶及其他市場的多語言代理人,您可以在同一個流水線中混合跨國的人格。

為什麼這對自主代理人很重要

當今大多數代理人都是「身份盲」的。它們遵循指令,卻沒有植根於它們所服務的對象。例如,一個使用美國調度慣例預約韓國醫院門診,或對 60 歲患者使用「반말」(banmal,非敬語/平語)的代理人,不僅讓人感覺不對,更是失敗的。

Nemotron-Personas-Korea 透過為您的代理人提供韓國運作語境來改變這一點。將一個人格載入到系統提示詞(system prompt)中,代理人就會繼承該人格的地區、職業、溝通規範和領域專業知識。

這適用於任何代理人框架。可以使用 NemoClaw(NVIDIA 的開源參考堆疊,用於在 NVIDIA OpenShell 沙盒中運行的常駐代理人,支援從 RTX PC 到 DGX Spark 的任何設備)進行部署,透過 NVIDIA NIM 進行生產推理,或直接調用 NVIDIA API。人格層與框架無關,其作用是作為一個植根於真實韓國人口統計數據、結構良好的系統提示詞。

教學:從合成人格到主權代理人

🔗 資源

第一步:載入並探索數據集

載入數據集並探索可用內容。每條記錄都包含結構化的人口統計欄位以及豐富的自然語言人格敘述。

第二步:篩選並選擇人格

根據職業、地區、年齡或任何欄位組合篩選數據集,以找到符合您目標領域的人格。在這裡,我們將構建一個韓國公共衛生代理人。

您可以進一步按地區(例如:僅限濟州島的醫護人員)、教育程度或生活階段進行細分。數據集足夠大,可以找到非常具體的切片。

第三步:定義您的代理人行為

這是人格數據轉化為代理人行為的地方。結構化欄位——姓名、地區、職業、技能——成為代理人的身份。您在其上疊加行為指令和任務範圍。結果是一個像特定角色和地區的韓國專業人士一樣進行推理的代理人。

第四步:部署您的代理人

將植根於人格的提示詞連接到模型進行推理。根據您的設置,您有三個選擇:

同樣的工作流程適用於任何領域。更換人格篩選器和任務範圍,您就擁有了一個新的代理人:一個「금융」(geum-yung,金融)人格變成零售銀行顧問,一個「교육」(gyoyug,教育)人格變成輔導助手,一個「공무원」(gongmuwon,公務員)人格則變成政府衛生服務代理人。

植根帶來的改變

以下是同一個問題——「독감 예방접종은 언제 맞아야 하나요?」(我應該什麼時候接種流感疫苗?)——在有和沒有人格植根情況下的回答對比。

人格的作用不僅僅是翻譯——它提供了語境,並產生一個讓您的用戶感到信任的代理人。

來首爾與我們一起構建

NVIDIA Nemotron 開發者日將於今天和明天(2026 年 4 月 21 日至 22 日)來到首爾——這是該活動首次在 GTC 之外舉辦。為期兩天的活動包括關於主權 AI 和開放模型的技術會議,以及一場動手實作的黑客松,您將有機會使用 Nemotron-Personas-Korea 來構建特定領域的韓國代理人和 claw。 🦞

親自參與或透過直播加入。分享您的成果,就有機會在未來的 NVIDIA 教學中獲得展示。

本文提到的數據集 1

本文提到的系列 1

作者的更多文章

利用合成數據構建快速多語言 OCR 模型

NVIDIA Isaac GR00T N1.7:用於人形機器人的開放推理 VLA 模型

社群

· 註冊或登入以發表評論

本文提到的數據集 1

本文提到的系列 1

Huggingface

相關文章

其他收藏 · 0