五個經驗教訓:機器學習應用量化策略的那些坑!

  • 2020 年 3 月 30 日
  • 筆記

作者:IAN J. HISSEY 編譯:方的饅頭

1

前言

2

在量化研究中引入機器學習

3

自動化機器學習

4

建立和測試模型

為了表明機器學習可用於增強傳統的量化因子,我們建立了中國A股的股票預測模型。我們為2012年12月至2019年8月編製了中證800指數的股票表現和各種因子數據的月度概況。我們將目標變量設置為股票的未來一個月收益,並使用原始投資組合模型中的因子。

5

不要混淆樣本內和樣本外

6

屏蔽噪音並一次建模

與機器學習的典型用例(如預測同店銷售額或個人銀行貸款違約的可能性)不同,股票收益數據是嘈雜的。眾所周知,時間序列金融數據受複雜行為困擾,包括異方差性、黑天鵝和尾部相關性。在我們的案例中,我們並不試圖預測市場收益,而只是預測要投資的股票。為了最大程度地減少這些現象的影響,我們可以僅關注基準相對或同級相對表現,以將噪聲降至最低。

7

簡化問題陳述以產生更好的模型

8

解釋你的模型與構建模型一樣重要

此圖表解釋了特徵與預測的關係。這些可以是並且通常是非線性的。就價值而言,公司的風險敞口越高,我們模型中的預測就越高。

然後,我們可以從理論到實踐的理解,並研究該策略的交易方式。下圖顯示了該模型推薦的公司的SWS行業。Y軸在1到5的範圍內顯示一個行業的相對重要性,其中1表示最高,氣泡的大小表示觀測的頻率。我們的模型在收購電子行業的公司時避免了金融和公用事業。

然後,我們根據之前強調的國有企業標誌將預測分為兩組。通過分析各組股票收益的相關性,我們發現該模型根據公司是否為國有企業給出了截然不同的建議。對於國有企業,我們的模型更傾向於價值股票,而對於民營企業,我們的模型傾向於對成長型公司進行更多投資。

9

嘗試多種方法並快速失敗

10

結論