金工深度研究：大模型+強化學習因子挖掘.pdf

上傳者：0******
時間：2025/12/05
熱度：382
0人點贊
舉報

金工深度研究：大模型+強化學習因子挖掘。

人工智能 97：大模型+強化學習挖掘量價因子

本文基于大模型+強化學習技術，探索二者結合在因子挖掘場景下的應用潛力。通過對因子表達式的 Token 化建模，強化學習可在指定環境中以 Token 單元組成動作序列，形成完整的 Alpha 因子表達式；大模型則可借助其金融領域知識為強化學習去蕪存菁，注入活水，有效提升強化學習因子挖掘的效果及穩定性。基于該框架產出因子構建滬深 300 指增策略，回測區間（20201231-20251128）策略年化超額 17.85%，信息比率 1.50；中證 500 指增策略年化超額收益率 9.78%，信息比率 0.67。

強化學習應用于因子挖掘：Token 化序列建模與序列決策

Token 化是強化學習因子挖掘框架的根基。其目標是將任何數學表達式映射為一個可學習、可生成的離散序列，使強化學習模型能在離散空間中高效操作。完成 Token 化之后，因子挖掘問題便可以轉化為一個序列決策問題，即每一步從有限 Token 集中選取一個符號，將其加入表達式序列中，直到構造完成一個可執行的因子表達式。強化學習正是解決這類問題的標準方法。其核心思想在于，讓模型在“試錯”中學習如何生成更優質的表達式，通過獎勵機制不斷向高質量因子空間逼近。

強化學習的因子挖掘短板與大模型的知識注入

在實際進行強化學習因子挖掘時，我們會發現強化學習模型產出的相當一部分因子存在構造簡單、不合邏輯、符號多余等問題，原因在于強化學習模型并不具備語義理解能力，難以構造符合邏輯、具備一定經濟學含義的因子，而這恰恰是大模型的優勢所在。因此在本文框架中，我們嘗試融入大模型的領域知識，一方面是構造基礎池，即為強化學習模型提供一個“熱身”過程，可能更容易挖掘出效果更進一步的因子；另一方面是定期注入新因子，剔除劣質因子，避免強化學習模型陷入局部最優。

大模型+強化學習因子挖掘全流程

在因子挖掘流程中，由基于 MaskablePPO 算法的強化學習模型持續不斷生成 Token，以實現因子的不斷挖掘。模型交互的環境可稱之為 AlphaPool，對應特定股票池的 Alpha 因子池。對于模型生成的任意因子，由 AlphaPool 完成評估，例如 IC 計算、是否為之前的失敗緩存因子、能否入池等等，基于評估結果確定反饋給強化學習模型的獎勵水平。在此之外，開始挖掘前，大模型可生成一定數量因子作為初始因子池，強化學習后續迭代過程中，大模型亦會定期注入新因子以替換劣質因子。

強化學習因子挖掘效果較優，大模型增益效果明顯

基于強化學習挖掘出的因子組合在滬深 300 指增策略表現優異，回測區間內年化超額收益率可達 16.41%；在中證 500 指增策略中表現同樣較好，回測區間內年化超額收益率達 7.17%。大模型提供初始因子池，同時定期更新因子池后，回測區間內，對于滬深 300 指增組合，策略年化超額出現明顯提升，由 16.41%提升至 17.85%，信息比率從 1.28 提升至 1.50；中證 500 指增策略表現類似，年化超額收益率提升由 7.17%提升至 9.78%，信息比率從 0.48 提升至 0.67。