以圖表呈現一萬個最常用英文單字如何相互定義

Hacker News·29 天前

本專案透過力導向圖呈現一萬個最常用英文單字子集之間的定義關係，展示了單字如何相互定義的分布模式。

word graph

背景

這項專案由 Wyatt Sell 製作，利用 Google 的「兆字語料庫」（Trillion Word Corpus）中前一萬個最常用英文單字，結合 Open English Wordnet 的定義，構建出一個力導向圖形（Force-directed graph）。該圖表旨在視覺化呈現單字之間如何相互定義，並分析哪些單字在定義中出現頻率最高，以及哪些單字擁有最複雜的定義結構。

社群觀點

在 Hacker News 的討論中，這項視覺化作品引起了關於語言結構與資料處理的深入探討。開發者 Wyatt Sell 透露，該圖表後端使用 NetworkX 處理圖形佈局，前端則透過 SigmaJS 進行動態呈現。儘管視覺效果令人驚艷，但部分用戶對其實際用途提出疑問。對此，有評論者認為這類圖表能揭示「原始詞彙集」（Primitive lexicon）如何演化成更複雜的語言體系，展現出語言層次遞進的邏輯。

討論的核心爭議點在於為何部分極為常見的單字（如 is, be, the, from）在搜尋中缺席。對此，作者解釋這與底層資料庫 WordNet 的特性有關。WordNet 僅收錄名詞、動詞、形容詞與副詞等「開放類詞彙」，而不包含冠詞、介系詞或代名詞等功能性詞彙。雖然作者曾考慮將這些詞作為純粹的輸出節點加入，但擔心這會導致圖表過於混亂且缺乏實質意義。然而，也有使用者指出，這種過濾方式導致最終呈現的單字量僅約 7,931 個，與標題宣稱的一萬個單字存在落差。

此外，社群也針對網路圖形的視覺化限制提出了專業建議。有評論指出，大型網路圖形往往容易變成難以解讀的「亂髮球」（Hairball），建議可以使用「四邊形西美爾骨架」（Quadrilateral Simmelian Backbones）等技術來過濾雜訊，突顯網路中真正重要的結構。另有觀點提出，若改用《牛津高階學習詞典》的「定義詞彙表」（Defining Vocabulary）作為基礎，或許能產生更具層次感的視覺效果。該詞典僅使用約 3,500 個核心單字來定義所有詞條，若以此建模，圖表將會呈現出一個清晰的核心核心，其餘單字則環繞其外，這對於理解語言的基礎構成將更有幫助。

延伸閱讀

在討論過程中，社群成員分享了數個相關資源。首先是 Princeton Wordnet，雖然該計畫已停止開發，但仍可透過第三方網站 en-word.net 進行瀏覽。針對網路圖形簡化的技術，留言中提及了關於「四邊形西美爾骨架」的學術論文（DOI: 10.7155/jgaa.00370）。最後，有使用者推薦了 Guy Steele 著名的演講《Growing a Language》，該演講深入淺出地探討了如何從基礎詞彙構建出完整語言體系的過程。

https://wyattsell.com/experiments/word-graph/