是時候輪到來批評量化交易了

在你人生當中的任何一年，如果你沒有摧毀你最棒的主意之一，那年你八成是白過了 (Charlie Munger)

雖然事實不是令人開心，但今年可以算是沒白過。

經過這幾年不斷的研究量化交易(投資)，近期越來越發現，量化交易本身易產生的嚴重瑕疵。過往我也曾想過把所有投資組合逐步朝向全面系統化，也就是產生許許多多的量化交易策略，每支策略當作投資組合的一部分，以組成投資組合，分散各個策略的風險。但近期逐漸覺得這對我來說是個糟主意，所以對於有心想要朝量化交易的投資人來說，這篇可以給予一些借鏡，評估自己的優劣勢，是否該全心持續投入量化交易領域。

量化交易(投資)指的是採用一致性，系統化的方式，並經過歷史資料驗證，找出有效的回測績效，並在後續透過該交易策略去執行交易。量化交易好處其實不少。第一，它可以利用科學化的方式去驗證，什麼有效，什麼沒效，讓數據去說話，而非人云亦云。第二，可以克服人性的弱點，讓程式及規則強迫你執行某種交易，而不是讓情緒去控制你(關於量化交易的基礎介紹及常見的問題，我們過往曾寫過一系列文章，見此)

但近期使用了不少號稱權威的資料庫，付費及免費都有，許多是學術機構及法人專用，但多多少少，總是可以找到資料的瑕疵，而且還可以找到不少!尤其在股票方面的調整後股價資訊，總會有些公司調整錯誤，造成回測時的績效大幅失真，而對於潛在還有多少資料仍然有缺失，對於外部使用的人實在難以估計。畢竟資料從第三方得來，這也就容易造成工程界常說的GIGO(垃圾進，垃圾出)。據說頂尖對沖基金文藝復興科技，花了非常大量資源收集及清理數據，所以該公司具有的優勢在於，他們所擁有的巨量資料及其正確性，研究人員若想測試交易構想，都能輕易取得想要的資料並驗證(見此)。

再來是競爭性，在台灣等新興市場國家可能還不是太競爭，量化交易是比較新的名詞，但隨著電腦的硬體價格降低及效能提升，資料的可取得性，以及許多的smart beta ETF開始推成出新，不斷找尋市場上未被發現的訊號並據此交易，很容易造成彼此互相抵銷，使得原本有效的方法在未來不再有效，以美國避險基金產業為例，HFR專門針對對沖基金整體產業分門別類編制指數，以其中的量化交易產業指數來說，編制起始點自1990開始。截至2017年底，績效勝過S&P 500大約年化1.19%，但其實績效超前都集中在2009以前，以近10年來說，累計報酬率僅30%，遠低於S&P 500的124.5%，並自2009年開始，每一年都跑輸S&P 500。

最後是近期看到的一篇論文:Testing strategies based on multiple signals by Robert Novy-Marx(下載請至此)。看完這篇論文後對於全球超過一兆美元的資金投入在量化交易領域產生嚴重的懷疑。對學術圈不陌生的讀者應該知道Robert Novy-Marx是很有名的學者，Fama-French 5因子中的其中一因子(profitability effect)就是該教授提出的。論文前半部是數據實證，後半部用到大量的高等數學建立模型(PS:我已經超過十年沒碰那些數學，說真的證明部分也看不太懂了)，不過後半部看不懂也不影響對從事量化投資人的啟示，其實看前幾頁實證分析結論就可以了。整篇論文的重點是探討多重交易訊號組合的投資策略，就算出現很棒的結果，也很容易是完全巧合，若是用單純P value小於5%來看，只要多找幾次，很輕易就能統計顯著。這牽涉到量化交易的本質，一群人不斷在過往歷史資料內，自行發想、看論文或研究報告，企圖找到好的交易訊號，然後不斷回測，找到表現比大盤好，或是像目前產業流行的方式，成立多空兼做的投資組合，找到產生統計顯著的alpha值。試著想像看看，當你想了100種交易訊號，假設找到其中一種是買進過往1年的強勢股，也就是漲幅最高的20支股票，均等分配變成投資組合，然後持有一季後，再找過往一年的20支強勢股，如此不斷每季換股操作。假設該方法在過往15年表現比大盤好不少，你就把它當作是成功的回測策略並保留，下一次你可能改成測試過往半年的強勢股，然後你發現沒效，你就剔除它，如此不斷的找了一百種不同訊號，回測過去15年一百次，非常有機會你能找到幾種看起來滿意的訊號，而本質上很有可能就是巧合，因為只要找得夠多夠久，總有好的出現。作者把這種找了N次選一種最好的叫做pure selection bias。目前對沖基金及smart beta ETF非常流行將多種訊號組合在一起，變成一個新的策略，我們依然利用上述舉例，假設有100種訊號，但希望能同時結合三種訊號的組合，想看看能否大幅擊敗大盤，或成立多空投資組合看看alpha顯著性如何，假設不斷測試結果發現，找到有一種方法可以統計顯著，分別是過往一年的強勢股策略，高殖利率策略以及突破52周新高策略三種結合在一起，回測過往15年發現報酬率非常優異，欣喜若狂之於，你又調了一些參數給三種訊號不一樣的權重，想讓回測結果效果更好，這種 100種訊號裡面取3種的不斷測試，會使得非常輕易地就滿足統計顯著。這就是該篇論文的重點，探討N個訊號裡找尋K種訊號的組合，要滿足傳統P value小於5%有多容易，白話的說，就是非常非常容易找到你想要的結果，而這種結果是巧合的可能性很大。我們前面提到在100次不同訊號裡找到一個滿意的訊號是巧合的可能性很大，這種狀況直覺很容易理解，那如果將100種訊號找三種不同的組合訊號要是統計顯著相當於N次裡面找到一個最棒訊號的統計顯著水準相同，這個N相當於是多少呢? 依照論文計算大約是27萬種訊號裡找一個最棒的結果，也就是呈現指數性的爆炸式增長，畢竟當你找27萬種訊號，找到一個最棒訊號滿足傳統P value小於5%統計顯著實在是太容易了，所以透過這種組合式策略，我們非常輕易就會受到隨機性所愚弄。對全球數以萬計的金融工程師，看著過往數10年甚至50年的資料，不斷的data mining，找出訊號又不斷的組合，不斷的回測，仔細思考，這超過1兆美元的市場，有多少人是在做白工?(或是說去投資量化交易基金是在做白工，畢竟量化交易還是相當具有話題性)這也是為什麼，許多看似很棒的歷史回測策略，一投錢下去，就不再有效了。對該篇論文有興趣並且英文聽力也不錯的讀者，如果想要節省時間，alpha architect blog有針對該論文的摘要及影片檔(見此)。

至於當下流行的機器學習、深度學習應用在投資狀況又如何呢? 機器學習通常會將資料區分訓練集及測試集，也就是在訓練階段讓機器學習幫我找訊號，之後拿到測試階段再度驗證資料，有的會將歷史數據切成多段時間，事實上做量化交易的投資人，即使不使用機器學習，也常將歷史資料切成測試及驗證，但作者對於這種方法不是太認同，作者認為這也許能解決部分問題，但如果認為這就能完全解決問題是在自欺欺人。實務上，即使將時間切割，經過大量的測試，一定還是在過往時間內滿足各種狀況才保留該策略，否則就剔除，不斷重複實驗。所以實際上還是在樣本內不斷地找尋滿足條件的策略，真正的樣本外資料，就如同作者認為的，是你投錢後的10年，才能認證策略的有效性。

作者結論表明，並非不認同使用多種訊號結合來投資或交易，但在評估時可使用兩種方法避免，第一是使用非常嚴格的統計顯著，而非傳統的P value小於5%，隨著你的N或K增加，要大大增加你的嚴格度。第二，多重策略結果好不代表什麼，而要在結合之前，把每一種交易訊號拆開單獨使用也要各自有效才行，最後才能結合再一起。但事實上我認為，即使採用上述兩種方法，整個產業界無數的聰明金融工程師，日以繼夜的在歷史資料找尋訊號，只要找得夠多夠久，總會找得到你想要的，也就越容易被隨機性所愚弄，所以我們至多只能壓低隨機性愚弄，但無法完全解決。

投資股市原則上分成三種，自行選股建立投資組合、長期持有ETF與量化交易，過往我們批評過自行選股的缺點(這邊我們指的是透過主觀分析，不論是總體、基本面甚至技術分析都是)，因為實證上大多數的專業機構投資人無法擊敗市場。冪次法則這篇，我們探討市場是有少數贏家公司所組成的，所以自行選股相當困難。另外我們也曾批評長期持有ETF要承擔的最大耗損缺點(見此系列)。但以上都不是反對這兩種投資方式，僅是表明每種投資方式都有它的優缺點。這篇我們對量化交易提了許多嚴重瑕疵，同樣也不是表明我們反對量化投資。每個投資人都要瞭解到自己的優勢與劣勢，擁有的資源與時間，來評估要選擇何種方式，或是選擇幾種。你可以透過操作方式壓低運氣及隨機性對你的影響，但你沒辦法完全不受影響，即使長期也是如此，這也是投資如此困難的原因。

搜尋此網誌

市場異象投資人

是時候輪到來批評量化交易了