五個經驗教訓:機器學習應用量化策略的那些坑!
- 2020 年 3 月 30 日
- 筆記
1
前言

2
在量化研究中引入機器學習


3
自動化機器學習



4
建立和測試模型
為了表明機器學習可用於增強傳統的量化因子,我們建立了中國A股的股票預測模型。我們為2012年12月至2019年8月編製了中證800指數的股票表現和各種因子數據的月度概況。我們將目標變量設置為股票的未來一個月收益,並使用原始投資組合模型中的因子。



5
不要混淆樣本內和樣本外


6
屏蔽噪音並一次建模
與機器學習的典型用例(如預測同店銷售額或個人銀行貸款違約的可能性)不同,股票收益數據是嘈雜的。眾所周知,時間序列金融數據受複雜行為困擾,包括異方差性、黑天鵝和尾部相關性。在我們的案例中,我們並不試圖預測市場收益,而只是預測要投資的股票。為了最大程度地減少這些現象的影響,我們可以僅關注基準相對或同級相對表現,以將噪聲降至最低。
7
簡化問題陳述以產生更好的模型


8
解釋你的模型與構建模型一樣重要


此圖表解釋了特徵與預測的關係。這些可以是並且通常是非線性的。就價值而言,公司的風險敞口越高,我們模型中的預測就越高。

然後,我們可以從理論到實踐的理解,並研究該策略的交易方式。下圖顯示了該模型推薦的公司的SWS行業。Y軸在1到5的範圍內顯示一個行業的相對重要性,其中1表示最高,氣泡的大小表示觀測的頻率。我們的模型在收購電子行業的公司時避免了金融和公用事業。

然後,我們根據之前強調的國有企業標誌將預測分為兩組。通過分析各組股票收益的相關性,我們發現該模型根據公司是否為國有企業給出了截然不同的建議。對於國有企業,我們的模型更傾向於價值股票,而對於民營企業,我們的模型傾向於對成長型公司進行更多投資。

9
嘗試多種方法並快速失敗


10
結論
