バックテスト結果を比較する方法 | Traseq ブログリサーチワークフローバックテスト結果を比較する方法
戦略の判断を一つの魅力的な指標ではなくトレードオフから導くために、バックテスト結果を並べて比較するプロフェッショナルなワークフロー。
Traseq··1 分で読めます バックテスト結果を比較するときは、まずベースラインを選び、意味のある変数を一度に一つだけ変更し、パフォーマンス、リスク、条件、期間をまとめて確認しましょう。最も見栄えのよいリターンが、常に最良のリサーチ候補とは限りません。ある戦略バリアントは、リターンを改善する一方で、ドローダウンを悪化させたり、取引回数を減らしたり、手数料とスリッページの適用後に脆くなったりすることがあります。
Traseq では、比較セットが暗号資産現物のリサーチャーに複数の過去シミュレーションを並べて確認する手助けをします。Traseq はリサーチワークスペースであり、ライブ取引や取引所の執行ソフトウェアではありません。
次の比較順序を使いましょう:
ひとつのアイデアを検証可能なバージョンに変える。
ノーコードの暗号資産現物戦略から始め、バージョンを固定し、バックテストを実行し、比較のために結果を追跡可能に保ちます。
ベースラインのランを選ぶ。比較対象のすべてのランが確定済みの戦略バージョンに紐づいていることを確認する。リターンとプロフィットファクターを比較する。ドローダウンの深さ、継続期間、回復を比較する。取引回数と取引分布を比較する。設定、条件、タイムフレーム、期間、手数料、スリッページを比較する。どのバージョンが次のテストに値するかを決める。二つのバックテストの間で何が変わったかを説明できないなら、その比較は不十分です。
ベースラインとは、他のすべての結果を評価する基準となる結果です。
- 戦略の最初のシンプルなバージョン
- 現在最も信頼しているバージョン
- カスタマイズ前のテンプレート
- 摩擦のないコントロールラン
- 現実的なコストを適用したマーケットベースラインのラン
ベースラインは完璧である必要はありません。安定していて、説明しやすいことが必要です。
Traseq では、有用なベースラインは確定済みの Ready バージョンと明確なラン構成を指すべきです。そうすることで、比較が記憶ではなく正確なルールと仮定に紐づきます。
あまりに多くの変数が同時に動くと、バックテスト比較は破綻します。
v1: BTCUSDT, 1h, RSI 30, トレンドフィルターなし, スリッページなし
v2: ETHUSDT, 4h, RSI 35, EMA フィルター, ストレススリッページ
v2 のほうがよく見える場合、何が改善をもたらしたのでしょうか。シンボル、タイムフレーム、RSI のしきい値、トレンドフィルター、それともコスト設定でしょうか。
v1: BTCUSDT, 4h, RSI 30, トレンドフィルターなし, Market Baseline コスト
v2: BTCUSDT, 4h, RSI 30, EMA トレンドフィルター, Market Baseline コスト
これで比較は明確な問いを一つ投げかけます。トレンドフィルターはリサーチ結果を改善したのか、という問いです。
リターンは有用ですが、最初で最後の判断指標であるべきではありません。
| 視点 | 確認すること |
|---|
| パフォーマンス | 総リターン、プロフィットファクター、期待値、資産曲線 |
| リスク | 最大ドローダウン、ドローダウン継続期間、回復の挙動 |
| 取引 | 取引回数、平均利益、平均損失、保有期間 |
| 条件 | どのルール変更が差を生んだか |
| 期間 | 結果が単一の市場局面に依存しているか |
| コスト | 手数料とスリッページが順位を変えるか |
リターンを改善するがドローダウンを倍にするバリアントは、改善とは言えないかもしれません。ドローダウンを減らすがほとんどの取引をなくしてしまうバリアントは、十分な根拠を提供しないかもしれません。コストがゼロのときだけ機能するバリアントは、脆すぎるかもしれません。
Traseq の比較セットは、並べて行うリサーチレビューのために設計されています。
- 各バックテストの主要指標カード
- 重ね合わせた資産曲線
- ドローダウン比較
- P&L 分布
- 保有期間の分布
- 条件と設定の差分
- 月次および週次のリターンの挙動
これが重要なのは、多くの戦略判断が視覚的で経路依存だからです。サマリー表は二つの似たリターンを示すかもしれませんが、資産曲線は一方のバージョンが長く回復しないドローダウンを被ったことを明らかにすることがあります。
プロフェッショナルな比較は、そのリターン経路が耐えられるものだったかを問います。
- 最悪のドローダウンがどれほど深かったか
- 資産が水面下にどれほど長くとどまったか
- ドローダウンが繰り返されたか
- 回復が滑らかだったか、それとも一回の大きな取引に依存したか
- リスク改善が複数の期間にわたって成立したか
あるバリアントが、より深いまたはより長いドローダウンを取ることでリターンを上げたなら、それを良いと呼ぶのではなく、そのトレードオフを記録してください。
取引回数がバックテストを自動的に検証するわけではありませんが、結果にどれだけ信頼を置けるかに影響します。
- あるバリアントがわずかな取引だけで指標を改善している
- 一つの外れ値の取引が結果の大半を左右している
- 取引リストに損失の集中が見られる
- 短い日付範囲が不利な局面を隠している
- より厳しいフィルターが根拠を取り除きすぎている
最良の次の一手は、勝者を選ぶことではない場合もあります。期間を延ばす、別の市場を比較する、あるいはルールを簡素化して戦略が確認に足る根拠を生み出すようにすることです。
バリアントを比較するときは、手数料とスリッページの仮定が統制されていることを確認してください。一方のランがスリッページなしで、もう一方がストレススリッページを使っている場合、その比較は誤った問いに答えているかもしれません。
- 同じベースラインコストの下で v1 と v2 を比較する。
- 同じストレスコストの下で v1 と v2 を比較する。
- 両方で順位が維持されるかを確認する。
あるバージョンがクリーンな仮定の下でのみ勝つなら、さらにレビューするまでは脆いものとして扱いましょう。
- ベースラインを維持する
- バリアントを進める
- もう一つの統制されたテストを実行する
- そのアイデアを破棄する
- リサーチの問いを変える
一つの指標が改善したからといって、すべてのバージョンを生かし続けないでください。リサーチの質は、何を追わないかを決めることにかかっています。
v2 は最大ドローダウンを減らし、プロフィットファクターを安定して維持したが、取引回数は 60% 減少した。
イグジットを変更する前に、より長い期間のテストのために v2 を進めること。
このメモは、最も高いリターンのスクリーンショットよりも価値があります。
バックテスト比較とは何ですか?
バックテスト比較とは、二つ以上の過去シミュレーションを並べてレビューすることです。ある変更が戦略を改善したのか、リスクを悪化させたのか、根拠を減らしたのか、それとも単一の仮定の下でだけ結果を変えたのかを理解する手助けになります。
まず何を比較すべきですか?
ベースラインから始め、次に収益性とリスクをまとめて比較してください。総リターンだけで勝者を選んではいけません。
バックテストの間で変数をいくつ変えるべきですか?
可能な限り、一度に意味のある変数を一つだけ変えてください。複数の設定が同時に変わると、その比較は何が差を生んだのかを説明できないかもしれません。
ノーコード戦略でなぜ比較が重要なのですか?
ノーコードのワークフローは反復を速くします。その速さが有用なのは、各バージョンが追跡可能なまま保たれ、各比較が実際のトレードオフを説明する場合だけです。
Traseq は私のために最良の戦略を選んでくれますか?
いいえ。Traseq は過去のリサーチ根拠を比較する手助けをします。金融アドバイスを提供したり、パフォーマンスを保証したり、ライブ取引の判断を下したりはしません。
トレーディングチームのための再現可能な戦略リサーチ