如何比較多個回測結果|Traseq 部落格研究流程如何比較多個回測結果
一套專業回測比較流程:把策略決策建立在取捨上,而不是單一漂亮指標。
Traseq··2 分鐘閱讀 比較多個回測結果時,應該先選 baseline,一次只改一個有意義的變數,再一起檢視 performance、risk、conditions 與 time periods。最高的報酬不一定是最好的研究候選。某個版本可能提高報酬,卻同時加深回撤、降低交易筆數,或在加入手續費與滑價後變得脆弱。
在 Traseq 中,比較集合能幫助加密貨幣現貨研究者並排檢視多份歷史模擬。Traseq 是研究工作區,不是實盤交易或交易所執行軟體。
用這個順序比較:
把一個構想轉成可測試的版本。
從無程式的加密貨幣現貨策略開始,鎖定版本、執行回測,並讓結果保持可追溯以供比較。
選一份 baseline run。確認每份比較中的回測都綁定到定版策略版本。比較報酬與獲利因子。比較回撤深度、持續時間與修復。比較交易筆數與交易分布。比較設定、條件、timeframe、區間、手續費與滑價。決定哪個版本值得下一輪測試。如果您無法解釋兩份回測之間到底改了什麼,比較就不夠乾淨。
- 策略的第一個簡單版本
- 目前最信任的版本
- 尚未自訂前的模板
- 零摩擦 control run
- 使用合理成本的 market-baseline run
Baseline 不需要完美。它需要穩定、清楚、可解釋。
在 Traseq 裡,有用的 baseline 應該指向定版的 Ready 版本與清楚的 run configuration。這能讓比較綁定到精確規則與假設,而不是憑記憶。
v1: BTCUSDT, 1h, RSI 30, 無趨勢濾網, 無滑價
v2: ETHUSDT, 4h, RSI 35, EMA 濾網, stress slippage
如果 v2 看起來比較好,到底是 symbol、timeframe、RSI threshold、趨勢濾網,還是成本設定造成的?
v1: BTCUSDT, 4h, RSI 30, 無趨勢濾網, Market Baseline 成本
v2: BTCUSDT, 4h, RSI 30, EMA 趨勢濾網, Market Baseline 成本
這樣比較只問一個問題:趨勢濾網是否改善了研究結果?
| 視角 | 該檢查什麼 |
|---|
| Performance | 總報酬、獲利因子、期望值、權益曲線 |
| Risk | 最大回撤、回撤持續時間、修復行為 |
| Trades | 交易筆數、平均獲利、平均虧損、持倉時間 |
| Conditions | 哪個規則變更造成差異 |
| Time periods | 結果是否依賴單一市場狀態 |
| Costs | 手續費與滑價是否改變排序 |
一個版本如果提高報酬但讓回撤翻倍,未必是改善。一個版本如果降低回撤但幾乎不交易,也可能證據不足。一個版本如果只在零成本下成立,可能太脆弱。
Traseq 的 comparison sets 是為並排研究檢視設計的。
- 每份回測的關鍵指標卡
- 權益曲線疊圖
- 回撤比較
- P&L 分布
- 持倉時間分布
- conditions 與 settings 差異
- 月度與週度報酬行為
這很重要,因為許多策略決策是路徑相關的。摘要表可能顯示兩個版本報酬接近,但權益曲線會揭露其中一個版本經歷了很長的未修復回撤。
- 最深回撤有多深
- 權益沉在水下多久
- 回撤是否反覆發生
- 修復是否平滑,或依賴單一大交易
- 風險改善是否跨多個期間成立
如果某個版本用更深或更長的回撤換來較高報酬,請把它記成取捨,不要直接稱為更好。
交易筆數不會自動驗證回測,但會影響您能對結果有多少信心。
- 某個版本靠很少交易改善指標
- 單一 outlier trade 決定大部分結果
- 交易清單出現虧損群聚
- 短日期區間藏住不利市場狀態
- 更嚴格濾網移除了太多證據
有時最好的下一步不是選勝者,而是延長區間、換市場比較,或簡化規則,讓策略產生足夠證據可供檢視。
比較版本時,先確保手續費與滑價假設一致。如果一份回測沒有滑價,另一份使用 stress slippage,比較可能在回答錯誤問題。
- 在相同 baseline 成本下比較 v1 與 v2。
- 在相同 stress 成本下比較 v1 與 v2。
- 檢查排序是否在兩種情境都成立。
如果某個版本只在乾淨假設下勝出,就先把它視為脆弱候選。
- 保留 baseline
- 推進變體
- 再跑一個受控測試
- 放棄這個想法
- 修改研究問題
不要因為某一個指標改善,就讓每個版本都繼續存在。研究品質很大一部分來自知道什麼不值得追。
v2 降低最大回撤,且獲利因子維持穩定,但交易筆數下降 60%。
先推進 v2 做更長區間測試,暫時不要改出場。
什麼是回測比較?
回測比較是把兩份以上歷史模擬並排檢視。它幫助您判斷某個變更是否改善策略、惡化風險、降低證據量,或只是在單一假設下改變結果。
回測比較應該先看什麼?
先看 baseline,再一起比較獲利能力與風險。不要只靠總報酬選勝者。
兩份回測之間可以改幾個變數?
盡量一次只改一個有意義的變數。如果多個設定一起改,比較就很難解釋差異來源。
為什麼無程式策略更需要比較?
無程式流程讓迭代變快。速度本身沒有價值,除非每個版本都可追溯,每次比較都能解釋真實取捨。
Traseq 會替我選出最佳策略嗎?
不會。Traseq 幫您比較歷史研究證據,但不提供金融建議、不保證績效,也不替您做實盤交易決策。
給交易團隊的可重現策略研究