學習零點：奇異學習理論（SLT）的錯誤之處

Lesswrong·大約 4 小時前

我分析了奇異學習理論，認為雖然它提供了有價值的玩具模型，但其關於奇異性在現實數據規模下控制泛化能力的關鍵主張存在缺陷，因為這受到有效理論限制的影響。

這是我希望撰寫關於奇異學習理論（Singular Learning Theory, SLT）以及將奇異點（singularities）作為數據退化（data degeneracy）模型的兩篇文章中的第一篇。如果順利的話，第二篇會更面向大眾；而這一篇則較偏向技術性。

前言

對我而言，SLT 是一個重要的玩具模型（toy models）來源，它指向了學習中一類有趣的新統計現象。它也是對舊有故事的一個重要修正——在過去（且目前已基本失效）的觀點中，學習被認為完全受海森矩陣（Hessian）特徵值和「非奇異盆地（nonsingular basins）」所控制。SLT 的實踐者在開發和完善應用於經驗模型的貝氏採樣（Bayesian sampling）實踐方面發揮了重要作用（物理學家在這篇等論文中有所應用）。而該理論的創立者渡邊澄夫（Sumio Watanabe）是一位一代宗師級的天才，他在機器學習的關鍵統計和資訊理論概念出現在「主流」理論之前，就早已預見並在數學上證明了它們。

然而，在 SLT 論文中經常重複著一個陳述——雖然這不影響經驗結果——但我認為這在結構性上是錯誤的。這個陳述是：機器學習中出現的模型在無限數據極限下是奇異的，並且與這種奇異性相關的測量值（稱為 RLCT）控制了感興趣案例中的泛化（generalization）和自由能（free energy）。

這並非一個可以修正的細節，而是一個我將在下文闡明的不可避免的結構性問題。我認為一個優雅且有用的理論與一個錯誤的陳述掛鉤是很遺憾的，這可能導致未來的失望，並使研究困於一個較無效率的方向。許多與 SLT 相關的理論和經驗結果都是重要的，且我認為與可解釋性相關，這與奇異性在實踐中是否「解釋了退化」的問題無關。正如我將在下文解釋的，我認為奇異模型所扮演的角色，與對稱性在凝聚態物理中所扮演的角色相同。許多關鍵現象（特別是自發對稱性破缺的相變）最初是在具有對稱性的理想化模型中發現的，但由此產生的物理現象學可以擴展到一大類不涉及對稱性的模型相變中。

我曾向幾個人解釋過為什麼奇異性故事存在缺陷的關鍵論點。有幾個人（最近是 Yevgeny Liokumovich，我感謝他與我進行了非常有益的討論）很喜歡這個關鍵範例，並要求我將其寫下來——因此我將在這篇文章中這樣做。在本篇中，我將集中討論該陳述中較為微妙的第二部分（第一部分——機器學習模型在無限數據極限下是否真的是奇異的——將是未來姐妹篇的主題）。我將展示真正的退化，若由 lambda-hat 參數^([1])正確測量，在現實的學習情境中實際上要強得多，因此泛化表現比純粹基於奇異性的預測所暗示的要好得多。

本文的核心見解包含在下方的埃爾米特模式（Hermite mode）圖表中。它顯示，即使在偏向 SLT 理論模型的情況下：觀察一個 SLT 極限已被理解的純粹奇異模型，其適用範圍也僅在天文數字級別（大約隨模型大小呈指數增長）的數據量下才會開啟。在任何現實的數據規模下，控制退化的承重結構不能（至少不完全能）與奇異性聯繫起來，而是需要一個獨特的、非純粹幾何的「有效理論（effective theory）」熱力學概念。

無需修正的部分

首先，讓我說明一些我認為在普遍意義上是正確的、且在 SLT 故事中無需修正的事情：

貝氏體制下的模型泛化受低損失盆地（即損失位於兩個值之間的損失景觀區域

mjx-math {
display: inline-block;
text-align: left;
line-height: 0;
text-indent: 0;
font-style: normal;
font-weight: normal;
font-size: 100%;
font-size-adjust: none;
letter-spacing: normal;
border-collapse: collapse;
word-wrap: normal;
word-spacing: normal;
white-space: nowrap;
direction: ltr;
padding: 1px 0;
}

mjx-container[jax="CHTML"][display="true"] {
display: block;
text-align: center;
margin: 1em 0;
}

mjx-container[jax="CHTML"][display="true"][width="full"] {
display: flex;
}

mjx-container[jax="CHTML"][display="true"] mjx-math {
padding: 0;
}

mjx-container[jax="CHTML"][justify="left"] {
text-align: left;
}

mjx-container[jax="CHTML"][justify="right"] {
text-align: right;
}

mjx-msup {
display: inline-block;
text-align: left;
}

mjx-mi {
display: inline-block;
text-align: left;
}

mjx-c {
display: inline-block;
}

mjx-utext {
display: inline-block;
padding: .75em 0 .2em 0;
}

mjx-mo {
display: inline-block;
text-align: left;
}

mjx-stretchy-h {
display: inline-table;
width: 100%;
}

mjx-stretchy-h > * {
display: table-cell;
width: 0;
}

mjx-stretchy-h > * > mjx-c {
display: inline-block;
transform: scalex(1.0000001);
}

mjx-stretchy-h > * > mjx-c::before {
display: inline-block;
width: initial;
}

mjx-stretchy-h > mjx-ext {
/* IE / overflow: hidden;
/ others */ overflow: clip visible;
width: 100%;
}

mjx-stretchy-h > mjx-ext > mjx-c::before {
transform: scalex(500);
}

mjx-stretchy-h > mjx-ext > mjx-c {
width: 0;
}

mjx-stretchy-h > mjx-beg > mjx-c {
margin-right: -.1em;
}

mjx-stretchy-h > mjx-end > mjx-c {
margin-left: -.1em;
}

mjx-stretchy-v {
display: inline-block;
}

mjx-stretchy-v > * {
display: block;
}

mjx-stretchy-v > mjx-beg {
height: 0;
}

mjx-stretchy-v > mjx-end > mjx-c {
display: block;
}

mjx-stretchy-v > * > mjx-c {
transform: scaley(1.0000001);
transform-origin: left center;
overflow: hidden;
}

mjx-stretchy-v > mjx-ext {
display: block;
height: 100%;
box-sizing: border-box;
border: 0px solid transparent;
/* IE / overflow: hidden;
/ others */ overflow: visible clip;
}

mjx-stretchy-v > mjx-ext > mjx-c::before {
width: initial;
box-sizing: border-box;
}

mjx-stretchy-v > mjx-ext > mjx-c {
transform: scaleY(500) translateY(.075em);
overflow: visible;
}

mjx-mark {
display: inline-block;
height: 0px;
}

mjx-mn {
display: inline-block;
text-align: left;
}

mjx-mtext {
display: inline-block;
text-align: left;
}

mjx-munderover {
display: inline-block;
text-align: left;
}

mjx-munderover:not([limits="false"]) {
padding-top: .1em;
}

mjx-munderover:not([limits="false"]) > * {
display: block;
}

mjx-msubsup {
display: inline-block;
text-align: left;
}

mjx-script {
display: inline-block;
padding-right: .05em;
padding-left: .033em;
}

mjx-script > mjx-spacer {
display: block;
}

mjx-TeXAtom {
display: inline-block;
text-align: left;
}

mjx-msub {
display: inline-block;
text-align: left;
}

mjx-mover {
display: inline-block;
text-align: left;
}

mjx-mover:not([limits="false"]) {
padding-top: .1em;
}

mjx-mover:not([limits="false"]) > * {
display: block;
text-align: left;
}

mjx-mfrac {
display: inline-block;
text-align: left;
}

mjx-frac {
display: inline-block;
vertical-align: 0.17em;
padding: 0 .22em;
}

mjx-frac[type="d"] {
vertical-align: .04em;
}

mjx-frac[delims] {
padding: 0 .1em;
}

mjx-frac[atop] {
padding: 0 .12em;
}

mjx-frac[atop][delims] {
padding: 0;
}

mjx-dtable {
display: inline-table;
width: 100%;
}

mjx-dtable > * {
font-size: 2000%;
}

mjx-dbox {
display: block;
font-size: 5%;
}

mjx-num {
display: block;
text-align: center;
}

mjx-den {
display: block;
text-align: center;
}

mjx-mfrac[bevelled] > mjx-num {
display: inline-block;
}

mjx-mfrac[bevelled] > mjx-den {
display: inline-block;
}

mjx-den[align="right"], mjx-num[align="right"] {
text-align: right;
}

mjx-den[align="left"], mjx-num[align="left"] {
text-align: left;
}

mjx-nstrut {
display: inline-block;
height: .054em;
width: 0;
vertical-align: -.054em;
}

mjx-nstrut[type="d"] {
height: .217em;
vertical-align: -.217em;
}

mjx-dstrut {
display: inline-block;
height: .505em;
width: 0;
}

mjx-dstrut[type="d"] {
height: .726em;
}

mjx-line {
display: block;
box-sizing: border-box;
min-height: 1px;
height: .06em;
border-top: .06em solid;
margin: .06em -.1em;
overflow: hidden;
}

mjx-line[type="d"] {
margin: .18em -.1em;
}

mjx-mrow {
display: inline-block;
text-align: left;
}

mjx-msqrt {
display: inline-block;
text-align: left;
}

mjx-root {
display: inline-block;
white-space: nowrap;
}

mjx-surd {
display: inline-block;
vertical-align: top;
}

mjx-sqrt {
display: inline-block;
padding-top: .07em;
}

mjx-sqrt > mjx-box {
border-top: .07em solid;
}

mjx-sqrt.mjx-tall > mjx-box {
padding-left: .3em;
margin-left: -.3em;
}

mjx-c.mjx-c1D43F.TEX-I::before {
padding: 0.683em 0.681em 0 0;
content: "L";
}

mjx-c.mjx-c22C6::before {
padding: 0.486em 0.5em 0 0;
content: "\22C6";
}

mjx-c.mjx-c2B::before {
padding: 0.583em 0.778em 0.082em 0;
content: "+";
}

mjx-c.mjx-c1D716.TEX-I::before {
padding: 0.431em 0.406em 0.011em 0;
content: "\3F5";
}

mjx-c.mjx-c1D450.TEX-I::before {
padding: 0.442em 0.433em 0.011em 0;
content: "c";
}

mjx-c.mjx-c1D45C.TEX-I::before {
padding: 0.441em 0.485em 0.011em 0;
content: "o";
}

mjx-c.mjx-c1D460.TEX-I::before {
padding: 0.442em 0.469em 0.01em 0;
content: "s";
}

mjx-c.mjx-c28::before {
padding: 0.75em 0.389em 0.25em 0;
content: "(";
}

mjx-c.mjx-c1D465.TEX-I::before {
padding: 0.442em 0.572em 0.011em 0;
content: "x";
}

mjx-c.mjx-c29::before {
padding: 0.75em 0.389em 0.25em 0;
content: ")";
}

mjx-c.mjx-c1D453.TEX-I::before {
padding: 0.705em 0.55em 0.205em 0;
content: "f";
}

mjx-c.mjx-c3D::before {
padding: 0.583em 0.778em 0.082em 0;
content: "=";
}

mjx-c.mjx-c30::before {
padding: 0.666em 0.5em 0.022em 0;
content: "0";
}

mjx-c.mjx-c2E::before {
padding: 0.12em 0.278em 0 0;
content: ".";
}

mjx-c.mjx-c1D70E.TEX-I::before {
padding: 0.431em 0.571em 0.011em 0;
content: "\3C3";
}

mjx-c.mjx-c74::before {
padding: 0.615em 0.389em 0.01em 0;
content: "t";
}

mjx-c.mjx-c61::before {
padding: 0.448em 0.5em 0.011em 0;
content: "a";
}

mjx-c.mjx-c6E::before {
padding: 0.442em 0.556em 0 0;
content: "n";
}

mjx-c.mjx-c68::before {
padding: 0.694em 0.556em 0 0;
content: "h";
}

mjx-c.mjx-c210E.TEX-I::before {
padding: 0.694em 0.576em 0.011em 0;
content: "h";
}

mjx-c.mjx-c2211.TEX-S2::before {
padding: 0.95em 1.444em 0.45em 0;
content: "\2211";
}

mjx-c.mjx-c1D456.TEX-I::before {
padding: 0.661em 0.345em 0.011em 0;
content: "i";
}

mjx-c.mjx-c31::before {
padding: 0.666em 0.5em 0 0;
content: "1";
}

mjx-c.mjx-c1D44E.TEX-I::before {
padding: 0.441em 0.529em 0.01em 0;
content: "a";
}

mjx-c.mjx-c1D464.TEX-I::before {
padding: 0.443em 0.716em 0.011em 0;
content: "w";
}

mjx-c.mjx-c20D7.TEX-V::before {
padding: 0.714em 0.5em 0 0;
content: "\2192";
}

mjx-c.mjx-c2C::before {
padding: 0.121em 0.278em 0.194em 0;
content: ",";
}

mjx-c.mjx-c1D44A.TEX-I::before {
padding: 0.683em 1.048em 0.022em 0;
content: "W";
}

mjx-c.mjx-c32::before {
padding: 0.666em 0.5em 0 0;
content: "2";
}

mjx-c.mjx-c35::before {
padding: 0.666em 0.5em 0.022em 0;
content: "5";
}

mjx-c.mjx-c36::before {
padding: 0.666em 0.5em 0.022em 0;
content: "6";
}

mjx-c.mjx-c223C::before {
padding: 0.367em 0.778em 0 0;
content: "\223C";
}

mjx-c.mjx-c4E.TEX-C::before {
padding: 0.789em 0.979em 0.05em 0;
content: "N";
}

mjx-c.mjx-c1D45B.TEX-I::before {
padding: 0.442em 0.6em 0.011em 0;
content: "n";
}

mjx-c.mjx-c6C::before {
padding: 0.694em 0.278em 0 0;
content: "l";
}

mjx-c.mjx-c6F::before {
padding: 0.448em 0.5em 0.01em 0;
content: "o";
}

mjx-c.mjx-c67::before {
padding: 0.453em 0.5em 0.206em 0;
content: "g";
}

mjx-c.mjx-c2061::before {
padding: 0 0 0 0;
content: "";
}

mjx-c.mjx-c2212::before {
padding: 0.583em 0.778em 0.082em 0;
content: "\2212";
}

mjx-c.mjx-c221E::before {
padding: 0.442em 1em 0.011em 0;
content: "\221E";
}

mjx-c.mjx-c2F::before {
padding: 0.75em 0.5em 0.25em 0;
content: "/";
}

mjx-c.mjx-c2192::before {
padding: 0.511em 1em 0.011em 0;
content: "\2192";
}

mjx-c.mjx-c38::before {
padding: 0.666em 0.5em 0.022em 0;
content: "8";
}

mjx-c.mjx-c1D466.TEX-I::before {
padding: 0.442em 0.49em 0.205em 0;
content: "y";
}

mjx-c.mjx-c5E::before {
padding: 0.694em 0.5em 0 0;
content: "^";
}

mjx-c.mjx-c1D706.TEX-I::before {
padding: 0.694em 0.583em 0.012em 0;
content: "\3BB";
}

mjx-c.mjx-c52::before {
padding: 0.683em 0.736em 0.022em 0;
content: "R";
}

mjx-c.mjx-c4C::before {
padding: 0.683em 0.625em 0 0;
content: "L";
}

mjx-c.mjx-c43::before {
padding: 0.705em 0.722em 0.021em 0;
content: "C";
}

mjx-c.mjx-c54::before {
padding: 0.677em 0.722em 0 0;
content: "T";
}

mjx-c.mjx-c34::before {
padding: 0.677em 0.5em 0 0;
content: "4";
}

mjx-c.mjx-c2264::before {
padding: 0.636em 0.778em 0.138em 0;
content: "\2264";
}

mjx-c.mjx-c1D703.TEX-I::before {
padding: 0.705em 0.469em 0.01em 0;
content: "\3B8";
}

mjx-c.mjx-c3A::before {
padding: 0.43em 0.278em 0 0;
content: ":";
}

mjx-c.mjx-c222B.TEX-S1::before {
padding: 0.805em 0.61em 0.306em 0;
content: "\222B";
}

mjx-c.mjx-c1D451.TEX-I::before {
padding: 0.694em 0.52em 0.01em 0;
content: "d";
}

mjx-c.mjx-c1D70B.TEX-I::before {
padding: 0.431em 0.57em 0.011em 0;
content: "\3C0";
}

mjx-c.mjx-c7C::before {
padding: 0.75em 0.278em 0.249em 0;
content: "|";
}

mjx-c.mjx-c1D45D.TEX-I::before {
padding: 0.442em 0.503em 0.194em 0;
content: "p";
}

mjx-c.mjx-c47::before {
padding: 0.705em 0.785em 0.022em 0;
content: "G";
}

mjx-c.mjx-c75::before {
padding: 0.442em 0.556em 0.011em 0;
content: "u";
}

mjx-c.mjx-c73::before {
padding: 0.448em 0.394em 0.011em 0;
content: "s";
}

mjx-c.mjx-c1D458.TEX-I::before {
padding: 0.694em 0.521em 0.011em 0;
content: "k";
}

mjx-c.mjx-c2208::before {
padding: 0.54em 0.667em 0.04em 0;
content: "\2208";
}

mjx-c.mjx-c211D.TEX-A::before {
padding: 0.683em 0.722em 0 0;
content: "R";
}

mjx-c.mjx-c65::before {
padding: 0.448em 0.444em 0.011em 0;
content: "e";
}

mjx-c.mjx-c78::before {
padding: 0.431em 0.528em 0 0;
content: "x";
}

mjx-c.mjx-c70::before {
padding: 0.442em 0.556em 0.194em 0;
content: "p";
}

mjx-c.mjx-c221A::before {
padding: 0.8em 0.853em 0.2em 0;
content: "\221A";
}

mjx-c.mjx-c226A::before {
padding: 0.568em 1em 0.067em 0;
content: "\226A";
}

mjx-c.mjx-c3C::before {
padding: 0.54em 0.778em 0.04em 0;
content: " * {
display: table-cell;
}

mjx-mtext {
display: inline-block;
}

mjx-mstyle {
display: inline-block;
}

mjx-merror {
display: inline-block;
color: red;
background-color: yellow;
}

mjx-mphantom {
visibility: hidden;
}

_::-webkit-full-page-media, _:future, :root mjx-container {
will-change: opacity;
}

mjx-c::before {
display: block;
width: 0;
}

.MJX-TEX {
font-family: MJXZERO, MJXTEX;
}

.TEX-B {
font-family: MJXZERO, MJXTEX-B;
}

.TEX-I {
font-family: MJXZERO, MJXTEX-I;
}

.TEX-MI {
font-family: MJXZERO, MJXTEX-MI;
}

.TEX-BI {
font-family: MJXZERO, MJXTEX-BI;
}

.TEX-S1 {
font-family: MJXZERO, MJXTEX-S1;
}

.TEX-S2 {
font-family: MJXZERO, MJXTEX-S2;
}

.TEX-S3 {
font-family: MJXZERO, MJXTEX-S3;
}

.TEX-S4 {
font-family: MJXZERO, MJXTEX-S4;
}

.TEX-A {
font-family: MJXZERO, MJXTEX-A;
}

.TEX-C {
font-family: MJXZERO, MJXTEX-C;
}

.TEX-CB {
font-family: MJXZERO, MJXTEX-CB;
}

.TEX-FR {
font-family: MJXZERO, MJXTEX-FR;
}

.TEX-FRB {
font-family: MJXZERO, MJXTEX-FRB;
}

.TEX-SS {
font-family: MJXZERO, MJXTEX-SS;
}

.TEX-SSB {
font-family: MJXZERO, MJXTEX-SSB;
}

.TEX-SSI {
font-family: MJXZERO, MJXTEX-SSI;
}

.TEX-SC {
font-family: MJXZERO, MJXTEX-SC;
}

.TEX-T {
font-family: MJXZERO, MJXTEX-T;
}

.TEX-V {
font-family: MJXZERO, MJXTEX-V;
}

.TEX-VB {
font-family: MJXZERO, MJXTEX-VB;
}

mjx-stretchy-v mjx-c, mjx-stretchy-h mjx-c {
font-family: MJXZERO, MJXTEX-S1, MJXTEX-S4, MJXTEX, MJXTEX-A ! important;
}

@font-face /* 0 */ {
font-family: MJXZERO;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Zero.woff") format("woff");
}

@font-face /* 1 */ {
font-family: MJXTEX;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Main-Regular.woff") format("woff");
}

@font-face /* 2 */ {
font-family: MJXTEX-B;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Main-Bold.woff") format("woff");
}

@font-face /* 3 */ {
font-family: MJXTEX-I;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Math-Italic.woff") format("woff");
}

@font-face /* 4 */ {
font-family: MJXTEX-MI;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Main-Italic.woff") format("woff");
}

@font-face /* 5 */ {
font-family: MJXTEX-BI;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Math-BoldItalic.woff") format("woff");
}

@font-face /* 6 */ {
font-family: MJXTEX-S1;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Size1-Regular.woff") format("woff");
}

@font-face /* 7 */ {
font-family: MJXTEX-S2;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Size2-Regular.woff") format("woff");
}

@font-face /* 8 */ {
font-family: MJXTEX-S3;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Size3-Regular.woff") format("woff");
}

@font-face /* 9 */ {
font-family: MJXTEX-S4;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Size4-Regular.woff") format("woff");
}

@font-face /* 10 */ {
font-family: MJXTEX-A;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_AMS-Regular.woff") format("woff");
}

@font-face /* 11 */ {
font-family: MJXTEX-C;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Calligraphic-Regular.woff") format("woff");
}

@font-face /* 12 */ {
font-family: MJXTEX-CB;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Calligraphic-Bold.woff") format("woff");
}

@font-face /* 13 */ {
font-family: MJXTEX-FR;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Fraktur-Regular.woff") format("woff");
}

@font-face /* 14 */ {
font-family: MJXTEX-FRB;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Fraktur-Bold.woff") format("woff");
}

@font-face /* 15 */ {
font-family: MJXTEX-SS;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_SansSerif-Regular.woff") format("woff");
}

@font-face /* 16 */ {
font-family: MJXTEX-SSB;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_SansSerif-Bold.woff") format("woff");
}

@font-face /* 17 */ {
font-family: MJXTEX-SSI;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_SansSerif-Italic.woff") format("woff");
}

@font-face /* 18 */ {
font-family: MJXTEX-SC;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Script-Regular.woff") format("woff");
}

@font-face /* 19 */ {
font-family: MJXTEX-T;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Typewriter-Regular.woff") format("woff");
}

@font-face /* 20 */ {
font-family: MJXTEX-V;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Vector-Regular.woff") format("woff");
}

@font-face /* 21 */ {
font-family: MJXTEX-VB;
src: url("https://cdn.jsdelivr.net/npm/mathjax@3/es5/output/chtml/fonts/woff-v2/MathJax_Vector-Bold.woff") format("woff");
}
的自由能測量值控制，其中是盆地中可能的最佳損失）。

對不同下的低損失盆地進行理解，並探討其幾何、物理和資訊理論屬性，對於可解釋性非常有價值。特別是有大量證據表明，在實踐中，貝氏設定中與學習相關的現象也會出現在其他類型的學習（如 SGD）中。
對於泛化良好的模型，這個盆地往往會更大（這有一個定理版本）。
在給定的損失敏感度參數下，該盆地的大小可以通過「lambda-hat 估計量」來測量，這在 SLT 論文中通常（非正式地）被稱為（估計的）「學習係數（learning coefficient）」^([2])（並在適當的極限下收斂到真實的 lambda-hat 值）。

錯誤之處

這裡錯誤的地方在於，認為測得的 lambda-hat 值所捕捉的資訊，在任何感興趣的案例中主要是奇異點的幾何結構。特別是「學習係數」（這是一個奇異點的幾何不變量）這一術語在幾乎所有設定中都是不正確的。

在以下兩種設定中，將 lambda-hat 與幾何資訊等同起來是有意義的：

對於線性模型的高度對稱任務以及淺層二次模型（例如在這篇論文中），這是一個正確且有用的版本。
對於極低維度的模型（參數數量級約為 20 個），這也是正確的，如這篇論文所示。

然而，除了這兩種情況外，奇異點並非理解泛化的正確測量方式，至少單獨來看不是。關鍵問題（我希望在姐妹篇中進一步展開）在於，損失函數具有奇異性這一現象是不穩定的。這類似於區間上的一般連續函數並非多項式（儘管它可以由多項式樣條任意精確地逼近）。因此，詢問「控制某個任務泛化的奇異性是什麼」可能類似於詢問「函數的多項式次數是多少」。可能存在類似於多項式次數的有趣不變量，但次數本身作為一個優雅的代數不變量的概念會崩潰。

我認為要看清奇異性故事是如何崩潰的，最好是觀察一個理論在極限下完美運作、但上述例外 (1) 和 (2) 均不成立的設定。這意味著我們應該觀察一個模型：

具有非多項式激活函數，且
具有（適度）高的參數維度。

此外，我們將選擇一個具有非平凡且已被充分理解的奇異性的設定。

這裡最好的例子是考慮一個學習零函數的兩層模型：

這裡我講述的故事很大程度上取決於激活函數（儘管在更寬鬆的值下，一般的「泛化行為」廣泛地與激活函數無關）。讓我們選擇激活函數（正如我們將看到的，這與更簡潔的能量函數相關）。為了簡化問題，讓我們寫下一個沒有偏置（biases）的模型^([3])：

這裡是 h 維向量（代表「隱藏層維度」）。

特別是，在這種情況下參數數量（權重空間的維度）為。為了擁有「適度高的參數維度」，我們取 h = 128，因此參數數量為。

理論部分

到目前為止我們還沒談到數據。當我們有一個學習問題時，我們應該有一個關於輸入的數據分佈。在這種情況下，輸入位於一維空間，一個自然的分佈是變異數為 1 的常態（高斯）分佈：

特別是當我們討論損失奇異性時，我們關心的是無限數據損失。換句話說，是針對從該分佈中抽取的所有取平均後的損失。儘管如此，在 SLT 分析中包含一個參數（訓練樣本的數量）也是慣例。回想一下，我使用「盆地高度」值來定義盆地體積（如果我們直接設置，體積為零且熵為）。在物理學中，這個被稱為溫度^([4])。

無限數據，以及參數與。

在 SLT 研究中，值被的倍數所取代。^([5]) 重要的是，渡邊證明了為了獲得關於損失極小值在精度內的準確資訊，需要大約個數據點（忽略一些對數因子——對於數學家來說，這裡的漸近符號應讀作「波浪號標記」）。雖然這是在漸近尺度上證明的，但在玩具模型的現實尺度上也得到了證實（更廣泛地說，相關不等式的一個方向可以在更普遍的情況下建立）。

這意味著對於深度網絡，要在精度下測量給定神經網絡的無限數據損失，通常需要大約個數據點。事實證明，對於單層網絡，人們通常可以規避實際的數據平均，直接計算無限數據損失，或者至少達到指數級精度。事實上，無限數據損失是一個積分，而積分通常可以通過（類似於）泰勒級數重寫，並具有指數級的收斂速度。在兩層模型的情況下，一個很好用的公式是高斯-埃爾米特求積（Gauss-Hermite quadrature）公式。

SLT 的預測

在繼續之前，讓我們寫下 SLT 的預測，這在這種情況下非常清晰。SLT 理論預測，在真正的極限下，lambda-hat 的值將穩定在一個與奇異性相關的已知值，稱為 RLCT。對於一般的損失函數，這裡的預期是 RLCT 為（例如，這對於學習單個埃爾米特模式的問題是正確的，例如。^([6])

在這裡，我們處於高度對稱的情況，且目標具有真正的退化。此外，它在點處是奇異的。這裡的奇異性可以被很好地理解（這是一個重要的 SLT 結果），我們得到：

（要理解這一點：請注意，如果我們取，無論我們為選擇什麼，輸出始終是零函數。這給我們留下了維度為的退化，這意味著的界限。還有其他 64 維的退化子空間，例如；但我們可以通過分析奇異性來檢查，所產生的額外退化不足以降低 RLCT）。

這意味著在的極限下，漸近 lambda-hat 測量必須返回 64。當我們觀察「極限」實際上意味著什麼時，關鍵的波折就出現了。

埃爾米特模式與激發

對於有限的，我們可以啟發式地以另一種方式估計 lambda-hat 值和自由度數量。由此產生的值測量了有限數據集下的有效退化，並且是相應數據集大小下與泛化相關的量。

回想一下，我們正在學習零函數。這意味著在函數空間中，給定函數（可能由權重參數給出）的損失是，其中是高斯機率密度函數「數據分佈」函數。我們可以將這個積分重寫為：

這裡的數字是在一個稱為埃爾米特多項式基底的優雅正交基底中的係數。現在，對於具有解析激活函數（如 tanh）的神經網絡，我們可以證明這個級數不僅收斂，而且收斂得非常快。特別是，以下是一個寬度為的隨機神經網絡係數的對數圖，其中嵌入權重是在 -1 和 1 之間均勻選擇的：

紅線是多個（藍色）樣本的平均值。由於 tanh 是奇函數，因此只有奇數埃爾米特多項式非零並被記錄在此。在右側我們看到，平方係數遵循第 k 個係數為的預測規律。

請注意，我這裡使用的是高斯-埃爾米特求積公式來計算無限數據函數，精度達到這個數量級。為了通過隨機採樣獲得相當的精度，我必須使用大約個樣本，這比現有最大模型的訓練語料庫還要多。平方埃爾米特係數的縮放規律在漸近線上表現為，我們甚至可以理論上預測其斜率^([7])。

我們可以將這種情況視為一個具有許多不同激發模式（由整數 k 索引）的物理系統。高階模式更「重」，或者說更難被激發。只有當我們要求系統具有更高的精度（或「解析度」）時，它們才變得相關——在物理學術語中，它們是「紫外模式（UV modes）」。

lambda-hat 計算的一個結果是，只要我們的 n 值（對應於樣本數或）顯著小於，第 k 個模式就不重要：我們可以完全忽略來自該模式的損失。特別是，只要我們的樣本數小於左右，模型探索的空間實際上只有不到 100 個自由度。通過一個簡單的論點，我們可以推斷出在個數據點處測得的任何 lambda-hat 值都小於（該測量大致計算了「有效自由度」的數量）。這非常重要，值得明確寫出來：

請注意，通過將上述埃爾米特模式衰減論點形式化，很容易嚴格證明這個不等式（的一個更謹慎的版本）。

這個不等式表明，在數據量達到指數級高度之前，我們甚至無法開始飽和「真正的奇異性」RLCT = 64。

這意味著我們展示了以下觀察結果：

為了在一個簡單的 256 參數奇異模型中看到真正的 RLCT，我們需要大小為的數據樣本。在實踐中，在任何「現實」數據規模下，自由能（以及相關的 lambda-hat 測量值）都要低得多。這實際上是好事，也是我們所期望的：它說明「大致回到 0」在實踐中實際上非常容易學習，且只需要極少的數據。

附錄：實際的 lambda-hat 縮放（假設與實驗）

為了證明有效退化值低於 RLCT，我們使用了與之間的一個不等式，這很容易變得嚴格。這引出了一個自然的假設（Ansatz），我目前還不知道如何嚴格證明，即這在某個適當因子下是一個漸近等式。換句話說，是的二次函數。這裡的假設來自埃爾米特模式的縮放：任何 n 值最多將個埃爾米特模式視為相關自由度。如果我們假設這些模式之間沒有關係，lambda-hat 的縮放將精確地為。

由此我們得到一個預測：在這種設定下，自由能是 log-n 的三次方：

這與 SLT 極限形成對比，在極限下自由能是的線性函數。

我運行了一個採樣實驗來證實這一點，結果與假設一致。在圖表中，參數 (beta) 就是我這裡所說的 n。^([8])

在處理自由能常用的對數尺度下，測量不同值下的 lambda-hat 值。本節的啟發式方法預測該函數應該是二次的。右側圖像顯示 lambda-hat 是的函數；這裡的線性關係即為二次假設。

值得重申的是，這種二次行為非常像是一種隨著我們改變感興趣的尺度而產生的有效現象。在真正的奇異極限（非常大的 n）下，這種大致的二次增長應該會在處達到平台期。

測量 lambda-hat 取決於低溫下的採樣，這是一個眾所周知的棘手過程，因此本實驗中的測量值有可能存在缺陷。外推這張圖表，我們預期 RLCT 會在大約處，或者當大約個埃爾米特模式變得相關時，達到真實值的平台。

有效理論

在前面的章節中，我們一直將純幾何的 SLT 預測與物理的有效理論進行對比，後者假設存在一片耦合的激發模式海洋，隨著 n 的增大逐漸變得相關。請注意，改進後的理論並不預測自由能是由海森矩陣特徵值捕捉的（從而將其還原為假設所有盆地都是二次的、已失效的「經典學習理論」）。事實上，在我們的例子中，所有海森矩陣方向都精確為零，任何有意義的理論必須正視奇異性。這裡的現實反而是：奇異性並非故事的全貌。為了理解任何現實規模的網絡是如何學習的，我們需要理解一個物理體積。這個體積在極限下可以具有「硬」幾何（奇異點）。但它也可以具有「軟」幾何，即對於有限的值，山谷具有真正的有限「厚度」參數，這些參數在不同體制下的縮放方式不同。在某些情況下，這些可以被視為盆地自由方向的廣義且非線性的「寬度」。由於自由方向的數量巨大且厚度是以乘法結合的，這些因素在任何「次天文級別」的數據大小下，都很容易主導極限奇異結構（如果存在的話）（在我們的例子中確實如此）。這些數值寬度可以來自海森矩陣特徵值，也可以發生在海森矩陣平坦區域，並與奇異性結合，如上述例子所示。更廣泛地說，自由能測量可以看到複雜的熱力學結構，非線性地耦合了與許多自由度相關的數值大小參數。

物理學有一套工具來理解這種與能量尺度產生豐富交互的高維結構，這些物理方法已被應用於機器學習背景中。我們擁有的最佳工具往往來自多粒子熱力學系統，其中微觀粒子的數值和幾何自由度非平凡地結合，從而給出宏觀參數上的有效能量景觀。

一個清晰實現這一點的知識體系被稱為「神經網絡場論（NN field theory）」。該理論存在於大寬度極限中，且與 SLT 一樣是不完整的。但它的優點在於能為具有「相當大」規模簡單目標的模型提供正確的有效理論，成為 SLT 的一種補充。

該理論正在經歷活躍的發展，其方式類似於 SLT 對舊有「海森盆地」故事的更新。在這種情況下，關於高斯過程的舊故事正被擴展為一種更具表現力的理論，通過圍繞一個非平凡/強耦合的真空（即平均場論）進行展開。在適用的情況下，這些理論往往預先配備了一套有效理論層級，例如擴展了上述的埃爾米特激發故事。

一個結合了平均場和奇異性的理論是迫切需要的。事實上，現有的統計場論文獻已經可以解釋簡單的三次和四次奇異性（分別稱為「Airy」和「Pearcey」修正），但我們目前缺乏一個能追蹤一般奇異性的、更統一的低溫圖像。這裡有一個有趣的潛在先例：當物理學家觀察到大對稱群與場論之間的張力時，由此產生的*規範場論（gauge theory）*概念統一了這兩個領域，並產生了一系列改變現代物理學的新見解。為奇異性建立一個相應的理論——一個將奇異現象與神經網絡中的高維場論現象結合起來的理論——在我看來是一個非常有前景的方向，可以使 SLT 的版本在保持有趣幾何結構的同時，在經驗上更加忠實（儘管應該指出，沒有額外結構的奇異性與物理設定中的對稱性有顯著不同，這種類比不保證一定成立）。

這個例子特殊嗎？

選擇這個例子是為了簡潔，但結論並不取決於它的簡潔性；如果有的話，在更混亂的設定中，奇異性預測與現實之間的差距會進一步擴大。已知清晰物理故事的設定非常罕見，但存在類似的（事實上更漂亮，雖然稍微不那麼「自然」）例子。激活函數和數據分佈的選擇完全可以推廣：只要激活函數是解析的，它只會影響指數增長的細節，而非其存在。特別是，一個非常好用的背景（我曾考慮圍繞它構建本文）是限制在圓圈上的二維輸入分佈，其中不同的激發模式對應於群表示^([9])，且不同階數下的能量指數增長更為簡潔。對於 d 維空間中的立方體，也存在類似（雖然更複雜）的故事。

但脫離這種簡潔的設定會產生特定的影響：它會使畫面的兩邊都變得更糟，而不僅僅是一邊。更高維度、更不規則的數據或非解析激活函數會產生更混亂的光譜^([10])（或根本沒有清晰的光譜），而這些特徵同樣會削弱 SLT 所需的奇異結構。無限數據下神經網絡真正的奇異性是解析、低維模型的特徵；使模型變得不那麼簡潔往往會沖淡它們。深度引入了一個獨立的問題。去噪效應（由現實模型學習到）可以將遠離潛在奇異點的淺層網絡高損失解，轉化為在任何次天文級別 n 下都與奇異極小值無法區分的極低損失解，儘管它們在 SLT 意義上並非奇異。

最終，我對 SLT 現象「以相關方式做出貢獻」持同情態度（下一節會詳述）；但我誠實的觀點是，隨著我們脫離這個簡潔的例子，奇異性在現實規模下完全解釋退化的可能性變得越來越遙遠。

結論

歸根結底，我個人的觀點是，損失景觀奇異性對於現實模型確實很重要。但它們發揮作用的方式發生在截斷值的特定、相對粗略的值處，以及在低維簡化中——比如模加法的低維傅立葉模式，或者大型混亂模型中其他局部化的組件。只有在考慮了主要的——但可能不那麼有趣的——整體效應（如上述光譜）之後，它們才應該是可見的。對我來說，這幅圖景與統計物理中的對稱性故事非常相似。在這裡，對稱群通常會對大型系統特有的混亂統計效應產生整潔且數學化的修正（如 2 倍因子之類）。儘管非主導，但與對稱性相關的結構通常對於結晶出新的結構和現象至關重要。我也認同渡邊的推理，即在學習模型的統計物理中，奇異性比對稱性更能引起有趣的退化和泛化行為。這使得奇異性很可能成為學習中的一種「基本理想化」，類似於對稱性是物理學中的一種「基本理想化」。

儘管如此，這仍是推測。值得帶走的堅實修正是：現實模型中的退化不應太輕易地被等同於奇異性。無論退化是否由奇異結構產生，SLT 的「有效退化」和自由能概念仍然很有價值，而測量這些值的 lambda-hat 估計量（始終是在有限或有效尺度上！）仍然具有充分的依據。有效故事對於學習至關重要，但不一定是幾何的。在這些現象被理解得最透徹的情況下，事實上也是奇異性最清晰出現的情況下，實際的「硬」奇異結構僅在比可觀測宇宙還要大的數據規模下才可見。

一如既往，現實比簡單的故事更複雜。也一如既往，簡單的故事指向了對現實極其重要的真實現象。

^(^)將一個重要且易於測量的物理量命名為「lambda-hat」是很遺憾的。物理學似乎缺乏一個更規範的名稱。在本文中我將沿用 lambda-hat。
^(^)在數學上，lambda-hat 估計量或多或少收斂於自由能的導數，即大約是盆地相對於 epsilon 的「熵」或對數體積：這遵循物理學中的標準模式，即自由能的導數往往比能量本身更容易計算。完整的自由能可以通過對不同 epsilon 下的該值（經過適當縮放）進行數值積分來計算。在實踐中，如果我們對自由能的粗略測量感興趣，只需在感興趣的單個截斷值處取 lambda-hat 就足夠了，並且往往能以你期望的方式與泛化相關聯。
^(^)這對這裡的漸近性沒有影響。
^(^)在物理學和 SLT 中，盆地「牆壁」不是損失 = 處的硬階梯函數，而是軟的「邏輯斯諦（logistic）」牆——這在實踐中不會改變現象學。
^(^)在 SLT 論文中，定律通常有一個對數因子，如或類似。由於與相比它是一個很小的乘法因子，因此常被忽略。當我們直接處理無限數據時，重要的變量是「溫度」，設置是一個符號選擇。
^(^)請注意，在我們的模型中讀出權重是經過正則化的，這導致了與讀出權重有界相同的漸近性，因此我們不能通過例如寫下來作弊。
^(^)事實上，我們可以從函數的埃爾米特係數中讀出這裡確切的漸近倍數。這裡的值（因為我們觀察的是平方坐標，所以翻倍）是雙曲正切函數解析延拓的極點距離實線的最小距離：tanh 在處是奇異的，因為。
^(^)回想一下在我們關於損失谷的討論中，山谷的「高度」是一個溫度參數，而是一個逆溫度參數，通常用 beta 表示。
^(^)我認為圓圈特別是一個數學上非常漂亮的例子。那裡的光譜特別是指數級的，沒有平方根。
^(^)特別是像 relu 這樣的不光滑激活函數，在無限數據下的光譜沒那麼極端。

討論

— Lesswrong

其他收藏 · 0