大型語言模型在金融市場的應用

The Gradient·大約 2 年前

人工智慧革命在2023年引發了對私募與上市公司瘋狂的投資，並擄獲了公眾的想像力。像ChatGPT這類變革性的消費產品是由大型語言模型（LLMs）所驅動，這些模型擅長對代表單詞或部分單詞的標記序列進行建模。

AI 革命在 2023 年引發了對私募和上市公司瘋狂的投資，並擄獲了公眾的想像力。像 ChatGPT 這樣具有變革性的消費級產品是由大型語言模型（LLMs）驅動的，這些模型擅長對代表單詞或部分單詞的標記（tokens）序列進行建模 [2]。令人驚訝的是，結構性理解是從學習「預測下一個標記」中產生的，而代理程式（agents）能夠根據簡單的使用者提示完成翻譯、問答和生成類人散文等任務。

不意外地，量化交易者也提出了疑問：我們能否將這些模型轉化為下一個價格或交易預測 [1,9,10]？也就是說，我們不對單詞序列建模，而是對價格或交易序列建模。這被證明是一個有趣的探究方向，揭示了許多關於生成式 AI 和金融時間序列建模的資訊。警告：內容將會變得有些艱澀。

LLM 被稱為自回歸學習者（autoregressive learners）——即利用序列中先前的標記或元素來預測下一個元素或標記。在量化交易中，例如股票的統計套利策略，大多數研究都集中在識別自回歸結構。這意味著要尋找最能預測未來價格的新聞、訂單或基本面變化的序列。

然而，在訓練模型所需的可用數據量和資訊含量方面，情況出現了落差。在 2023 年的 NeurIPS 會議上，高頻交易公司 Hudson River Trading (HRT) 展示了訓練 GPT-3 所使用的輸入標記數量與股票市場每年可用的可訓練標記數量的比較。HRT 估計，以 3,000 隻可交易股票、每隻股票每天 10 個數據點、每年 252 個交易日以及每個交易日 23,400 秒計算，每年可作為市場數據的股票市場標記為 1,770 億個。GPT-3 是在 5000 億個標記上訓練的，所以兩者差距並不算大 [6]。

數據由 HRT 2023 NeurIPS 演講提供

但是，在交易情境中，標記將是價格、報酬率或交易，而不是音節或單詞；前者要難預測得多。語言具有底層的語言結構（例如語法）[7]。不難想像人類可以預測句子中的下一個單詞，然而，若給予一段先前的交易序列，同一個人會發現預測下一個報酬率極具挑戰性，這也是為什麼缺乏億萬富翁當沖客的原因。挑戰在於，有非常聰明的人在競爭中抵消了市場中的任何訊號，使其變得「幾乎」有效（用經濟學家 Lasse Pedersen 的話來說是「有效率地不效率」），因此不可預測。沒有對手會主動讓句子變得更難預測——如果有的話，作者通常會尋求讓他們的句子易於理解，從而更具可預測性。

從另一個角度看，金融數據中的雜訊遠多於訊號。個人和機構進行交易的原因可能並不理性，也與企業的任何基本面變化無關。2021 年的 GameStop 事件就是一個例子。金融時間序列也隨著新的基本面資訊、監管變化以及偶爾的大型宏觀經濟轉變（如貨幣貶值）而不斷變化。語言的演變速度則慢得多，且跨越的時間跨度更長。

另一方面，有理由相信 AI 的理念在金融市場中會運作良好。AI 研究中一個對金融應用具有前景的新興領域是多模態學習（multimodal learning） [5]，其目標是使用不同模態的數據（例如圖像和文本輸入）來構建統一模型。透過 OpenAI 的 DALL-E 2 模型，使用者輸入文本，模型就能生成圖像。在金融領域，多模態努力可能有助於將傳統來源（如技術時間序列數據：價格、交易、成交量等）與不同模式的替代數據相結合，例如 Twitter 上的情緒或圖形互動、自然語言新聞文章和公司報告，或者是商品中心港口航運活動的衛星圖像。在這裡，利用多模態 AI，人們有可能整合所有這些類型的非價格資訊來進行精準預測。

另一種稱為「殘差化」（residualization）的策略在金融和 AI 領域都佔有重要地位，儘管它在兩個領域中承擔的角色不同。在金融領域，結構性「因子」模型將不同資產報酬率的同期觀察結果分解為共同成分（市場報酬率，或更廣泛的共同市場因子報酬率）和每個底層資產特有的特徵成分。市場和因子報酬率難以預測且會產生相互依賴性，因此在對單個資產水平進行預測並最大化數據中獨立觀察值的數量時，移除共同元素通常是有幫助的。

在變壓器（transformers）等殘差網絡架構中，也有類似的想法：我們想要學習輸入 X 的函數 h(X)，但學習 h(X) 對於恆等映射（identity map）的殘差（即 h(X) – X）可能會更容易。在這裡，如果函數 h(X) 接近恆等映射，其殘差將接近於零，因此需要學習的內容較少，學習效率更高。在這兩種情況下，目標都是利用結構來精煉預測：在金融案例中，想法是專注於預測超出整體市場隱含意義之外的創新；對於殘差網絡，重點是預測對恆等映射的創新。

LLM 令人印象深刻的性能的一個關鍵因素是它們能夠在被稱為「上下文窗口」（context windows）的長跨度內辨別標記之間的關聯性或強度。在金融市場中，跨長跨度集中注意力的能力使得分析多尺度現象成為可能，市場變化的某些方面可以透過非常不同的時間跨度來解釋。例如，在一個極端，基本面資訊（如盈餘）可能在數月內融入價格；技術現象（如動能）可能在數天內實現；而在另一個極端，微觀結構現象（如訂單簿失衡）的時間跨度可能只有幾秒到幾分鐘。

捕捉所有這些現象涉及對整個上下文窗口內多個時間跨度的分析。然而，在金融領域，對多個「未來」時間跨度的預測也很重要。例如，量化系統可能尋求透過交易從多個不同時間跨度實現的多個異常中獲利（例如，同時押注微觀結構事件和盈餘事件）。這不僅需要預測股票的下一期報酬率，還需要預測預期報酬率的整個期限結構或軌跡，而目前的變壓器式預測模型僅看向未來一個週期。

LLM 的另一個金融市場應用可能是合成數據生成 [4,8]。這可以有幾個方向。可以生成模擬市場觀察特徵的模擬股價軌跡，鑑於上述提到的金融市場數據相對於其他來源（標記數量）較為稀缺，這將非常有益。人工數據可以為元學習（meta-learning）技術打開大門，這些技術已成功應用於機器人等領域。在機器人設置中，控制器首先使用廉價但不一定準確的物理模擬器進行訓練，然後再使用昂貴的真實世界機器人實驗進行更好的校準。在金融領域，模擬器可用於粗略地訓練和優化交易策略。模型將學習高層次概念（如風險規避和分散投資）以及戰術概念（如緩慢交易以最小化交易的價格衝擊）。然後，珍貴的真實市場數據可用於微調預測，並精確確定最佳交易速度。

金融市場從業者通常對極端事件感興趣，即交易策略更有可能經歷重大收益或損失的時刻。可以從極端情境中採樣的生成式模型可能會派上用場。然而，極端事件根據定義很少發生，因此確定正確的參數並從相應的分佈中採樣數據充滿了困難。

儘管對於 LLM 是否能在量化交易中發揮作用存在懷疑，但它們可能會推動基本面分析。隨著 AI 模型的改進，不難想像它們能幫助分析師完善投資論點、發現管理層評論中的不一致之處，或尋找切向產業與業務之間的潛在關係 [3]。從本質上講，這些模型可以為每位投資者提供一個「查理·蒙格」。

當前生成式 AI 革命令人驚訝的地方在於，它幾乎讓所有人——學術研究人員、尖端科技公司和長期觀察者——都感到措手不及。建立越來越大的模型會導致像我們今天看到的這種湧現能力（emergent capabilities），這個想法完全出乎意料，且至今仍未被完全理解。

這些 AI 模型的成功激發了人力和金融資本湧入 AI 領域，這反過來應該會產生更好、更強大的模型。因此，雖然目前像 GPT-4 這樣的模型接管量化交易的情況不太可能發生，但我們主張保持開放的心態。在 AI 產業中，「預料之外的發展」一直是一個獲利的主題。

參考文獻

“Applying Deep Neural Networks to Financial Time Series Forecasting” Allison Koenecke. 2022
“Attention is all you need.” A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones… Advances in Neural Information Processing Systems, 2017
“Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models” . Lopez-Lira, Alejandro and Tang, Yuehua, (April 6, 2023) Available at SSRN
“Generating Synthetic Data in Finance: Opportunities, Challenges and Pitfalls.” SA Assefa, D Dervovic, M Mahfouz, RE Tillman… - Proceedings of the First ACM International Conference …, 2020
“GPT-4V(ision) System Card.” OpenAI. September 2023
“Language models are few-shot learners.” T Brown, B Mann, N Ryder, M Subbiah, JD Kaplan… - Advances in Neural Information Processing Systems, 2020
“Sequence to Sequence Learning with Neural Networks.” I.Sutskever,O.Vinyals,and Q.V.Le in Advances in Neural Information Processing Systems, 2014, pp. 3104–3112.
“Synthetic Data Generation for Economists”. A Koenecke, H Varian - arXiv preprint arXiv:2011.01374, 2020
C. C. Moallemi, M. Wang. A reinforcement learning approach to optimal execution. Quantitative Finance, 22(6):1051–1069, March 2022.
C. Maglaras, C. C. Moallemi, M. Wang. A deep learning approach to estimating fill probabilities in a limit order book. Quantitative Finance, 22(11):1989–2003, October 2022.

引用

若要在學術背景或書籍中引用，請將此作品引用為：

Richard Dewey and Ciamac Moallemi, "Financial Market Applications of LLMs," The Gradient, 2024@article{dewey2024financial,
author = {Richard Dewey and Ciamac Moallemi},
title = {Financial Market Applications of LLMs},
journal = {The Gradient},
year = {2024},
howpublished = {\url{https://thegradient.pub/financial-market-applications-of-llms},
}

— The Gradient

你的個人知識庫

大型語言模型在金融市場的應用

參考文獻

引用