凱利投注的收斂區域是什麼？

Lesswrong·5 個月前

這篇文章探討了凱利投注的「收斂盆地」，研究哪一類效用函數在長遠的時間跨度下，會漸進地引導代理人去最大化預期對數收益。我認為對於許多效用函數而言，中央極限定理顯示典型收益最終將主導決策，從而實際上收斂至凱利準則。

關於凱利投注（Kelly betting）的基本粗略論點大致如下。

首先，假設我們正在進行一系列共 T 次的獨立投注，一個接一個，且具有乘法回報（類似於金融市場）。我們在每個時間步長選擇要將多少資金投入哪些投注。

由於回報是相乘的，因此對數回報（log returns）是相加的。而且它們在每個時間步長都是獨立的，所以 T 個時間步長的「總對數回報」是 T 個獨立隨機變數的和。「T 個獨立隨機變數之和」讓我們想要調用中央極限定理（Central Limit Theorem），所以讓我們假設為了實現這一點所需的任何其他條件（對於其他條件有多種選擇）。因此：對於較大的 T，總對數回報將呈正態分佈，其均值等於每個時間步長預期對數回報的總和。

那麼關鍵問題是：對於任何給定的效用函數，它是會被典型/眾數/中位數回報所主導，還是會被尾部所主導？例如，效用函數 u(W) = W 會被上尾部主導：最大化該效用函數的代理人將樂於接受一個「機率趨近於 1 的零財富」，以換取一個「指數級微小的機會獲得指數級巨大的回報」。在光譜的另一端，一個僅希望財富超過某個相對較低門檻的效用函數（即門檻以下效用 = 0，門檻以上效用 = 1）將被下尾部主導：最大化該效用函數的代理人主要關心的是最小化「總回報低於門檻」那日益微小的機率，並會為了避免這種下行風險而放棄指數級更大的回報。

但在中間，似乎應該存在一整類受典型/眾數/中位數回報主導的效用函數。而這種含糊的中央極限論點指出，具有該類別中「任何」效用函數的代理人，在 T 足夠大時，只需在每個時間步長最大化預期對數回報——即凱利投注。這類效用函數就是凱利投注的「收斂域」（basin of convergence）——即在進行一系列具有乘法回報的獨立投注時，對於長期的時間範圍（即大 T），其漸近行為收斂於凱利投注的效用函數類別。

因此，本篇文章的問題是：凱利投注的收斂域是什麼？

儘管我對此進行了一些探究，但我不知道這個問題的答案。本文的其餘部分將包含一些關於該主題的更快速且粗略的想法，但我主要希望有人能受到啟發來回答這個問題。

數學設定：我們究竟在說什麼？

假設在每個時間步長，我們的代理人將其投資組合投入某些資產。在時間 t 投入每項資產 i 的比例為 $c_{ti}$，而資產 i 在 t 到 t+1 之間的回報為 $R_{ti}$。那麼 T 個時間步長後的總財富為：

$W_T = W_0 e^{\sum_{t=0}^{T-1} \ln(\sum_i c_{ti} R_{ti})}$

代理人擁有某種效用函數 $u(W_T)$，並在每個時間步長選擇 $c_t$ 以最大化 $E[u(W_T)]$。

為了使問題版本最簡單且仍能捕捉大部分意圖，讓我們假設回報 $R_{ti}$ 隨時間是獨立同分佈的（IID）。

現在，如果我們想使用中央極限定理，我們需要 $\ln(\sum_i c_{ti} R_{ti})$ 隨時間是獨立同分佈的，並且具有有限方差。遺憾的是，這兩者都極有可能是錯誤的：

代理人可以使用時間 t 可獲得的任何信息來選擇 $c_{ti}$，包括過去的回報 $R_{\tau < t, i}$。
某些策略在有限時間內以非零機率損失所有財富，在這種情況下，方差通常是無限的，因為 $\ln(0)$ 是負無窮大。

上述各項條件失效的具體例子：

假設代理人的效用函數是二元的：它只想以超過某個固定金額 $W^$ 的財富結束。那麼通常情況下，代理人的最佳策略是在財富較低時持有風險較高的投資組合，隨著財富接近 $W^$ 則持有較安全的投資組合，一旦財富超過 $W^*$ 則承擔零風險（想想關於退休儲蓄的傳統智慧）。因此，每個時間步長的分配取決於直到該時間步長的回報，這打破了獨立性。
假設代理人的效用函數是凸的（convex），即代理人比起（100% 財富保持不變），更傾向於（50% 財富翻倍，50% 輸光一切）。那麼當代理人進行例如有 50% 機率輸光一切的賭博時，將有 50% 的機率使 $\ln(\sum_i c_{ti} R_{ti})$ 為 $-\infty$，這……無法產生有限方差。

……因此，證明凱利投注收斂域的核心挑戰之一，是證明「在該區域內」，這類問題不會破壞論點（……或者對凱利投注使用某種完全不同的論證方式）。

證明收斂域的另一個重要部分，大概是討論來自分佈尾部的預期效用貢獻。

— Lesswrong

其他收藏 · 0

你的個人知識庫

凱利投注的收斂區域是什麼？

數學設定：我們究竟在說什麼？