Interview with Trader René Balke about Prop Trading
We’ve got an exciting interview with René Balke from BM Trading, an algo trader who’s nailed FTMO prop trading challenges. In our latest video, René shares his journey and secrets …
Přejít k obsahu | Přejít k hlavnímu menu | Přejít k vyhledávání
Robustheitstests sind ein wichtiger Bestandteil der StrategyQuant X-Tools, die den Nutzern helfen, die Stabilität, Zuverlässigkeit und Anpassungsfähigkeit ihrer Handelsstrategien unter verschiedenen Marktbedingungen und potenziellen Unwägbarkeiten zu bewerten. .
Das Hauptziel von Robustheitstests besteht darin, die Leistung einer Handelsstrategie unter verschiedenen Marktbedingungen, Szenarien und Parametereinstellungen zu bewerten.
StrategyQuant enthält mehrere spezifische Werkzeuge zur Bewertung der Robustheit von Strategien. In diesem Papier analysieren wir die Wirksamkeit ausgewählter Werkzeuge. Diese Bewertung stellt sicher, dass die Strategie für die gegebenen Daten nicht überoptimiert ist und sich an die sich ändernden Marktbedingungen anpassen kann, wodurch die Wahrscheinlichkeit einer erfolgreichen Handelsleistung erhöht wird.
Ein Beispiel für eine robuste und nicht robuste Strategie
Der blaue Teil jedes Diagramms sind die Daten, die nicht in der Stichprobe enthalten sind (unbekannte Daten). Wir können sehen, dass die Strategie auf der linken Seite auch in diesem Teil gut abschneidet, während die Strategie auf der rechten Seite an den unbekannten Daten scheitert - es ist fast sicher, dass sie an die Kurve angepasst wird.
Ziel der Studie ist es, die Wirksamkeit verschiedener Arten von Robustheitstests in StrategyQuant X in zu untersuchen.
Die Ergebnisse dieser Studie sollten sich mit den folgenden Kernpunkten befassen:
Abschließend sollte die Studie die Wirksamkeit verschiedener Arten von Robustheitstests bei StrategyQuant X gründlich bewerten und Einblicke in ihre Stärken, Schwächen und praktischen Anwendungen geben.
Die Ergebnisse werden Händlern und Anlegern helfen, den Wert der einzelnen Tests besser zu verstehen und fundierte Entscheidungen bei der Entwicklung und Validierung ihres Handels zu treffen.
Das Ergebnis der Analyse ist die Feststellung, dass die Der effektivste Test für die Robustheit unter den gewählten Bedingungen scheint ein Test der Strategie auf mehreren Märkten zu sein.. Mit dem Testen der Strategie auf mehreren Märkten meinen wir die Auswahl von Strategien nach den höchsten Durchschnittswerten der gegebenen Strategiemetriken auf mehreren Märkten. Im Durchschnitt verbessern sie die Leistung der Strategie um 14%. In StrategyQuant ist es sehr einfach, die Robustheit einer Strategie auf mehreren Märkten zu testen, indem man die Test auf Zusätzliche Märkte Gegenprobe.
Die zweitbeste Robustheitsprüfung ist die Monte-Carlo-Randomisierung von historischen Daten. Auf den folgenden Seiten können Sie die detaillierten Ergebnisse unserer Analyse und die dabei angewandte Methodik nachlesen. Die Analyse ist so konzipiert, dass sie für die Benutzer des Programms StrategyQuant X nützlich ist.
Weitere Informationen über alle Robustheitstests in Strategy Quant X finden Sie in unserer Dokumentation
Bei der Analyse haben wir die folgenden Einstellungen und Arten von Robustheitstests verwendet:
Bitte beachten Sie, dass dieses Ergebnis nur für die gegebene Build- und Testkonfiguration gültig ist, die Sie unten sehen können - Forex, 4H-Zeitrahmen, gegebener Satz von Symbolen und gegebene exakte Build-Einstellungen.
Es ist eine Aufgabe für die Zukunft - die wir als Fortsetzung dieser Serie planen - zu überprüfen, ob dieses Ergebnis auch für andere Vermögenswerte, andere Zeitrahmen und andere Baukonfigurationen gilt.
Im folgenden Teil habe ich eine Studie für Sie vorbereitet, an der ich 2 Monate lang gearbeitet habe. Ich habe dafür Dutzende von Seiten Python-Code entwickelt. Es ist ein großes Projekt, bei dem man mit riesigen Datensätzen arbeiten, numerische Operationen durchführen, die Daten analysieren und sie später interpretieren muss. Ziel war es, herauszufinden, wie ein bestimmter Robustheitstest dazu beitragen kann, Strategien auszuwählen, die mit größerer Wahrscheinlichkeit auch in Zukunft robuste Ergebnisse liefern werden. Das Papier folgt der Logik des Verfahrens in der Analyse.
Zunächst laden wir 5 Datensätze mit allgemeinen Rankings von Stick-Strategien für jeden Robustheitstest. Mit Datensatz meinen wir 100 000 Strategien, die auf der Grundlage eines sehr allgemeinen Rankings ausgewählt wurden.
Ich werde dieses Verfahren in verschiedenen Zeiträumen wiederholen
Jeder Datensatz hatte eine Einstellung von IS = 30% und OOS 70%, true out of sample war 2 Jahre.
Beispiel auf dem Bild unten: Der Datensatz 2003-2017 endet am 31.12.2016 und hat einen Zeitraum von 2 Jahren vom 1.1.2017 bis zum 31.12.2018, der außerhalb der Stichprobe liegt.
Mit anderen Worten: Wir simulieren die Generierung von Strategien mit dem Ende der Generierung in den Jahren 2017, 2018, 2019, 2020 und 2021. Nach jedem Zeitfenster folgen die Strategien im so genannten True Out of Sample. ( + 2 Jahre )
Zunächst erstellen wir Datensätze ohne Robustheitstests und wenden dann ausgewählte Tests für Zeiträume außerhalb der Stichprobe auf jeden Datensatz an.
Für jeden Zeitraum außerhalb der Stichprobe wähle ich die Strategien aus, die sich in den oberen 1% der Werte mit der gegebenen Robustheitstest-Strategiemetrik befinden, finde die Leistung dieser Strategien im Zeitraum außerhalb der Stichprobe und vergleiche ihre Leistung mit allen Strategien im Zeitraum außerhalb der Stichprobe. Ich erhalte die Daten für jeden Zeitraum und weiß dann, wie eine bestimmte Robustheitsprüfung im Durchschnitt helfen würde
Am Ende des Artikels finden Sie eine Tabelle, in der ich beschrieben habe, welche Tests am besten funktionieren... und umgekehrt, was ich keineswegs bestätigt habe. Sie können diese Tabelle bei der Erstellung Ihrer eigenen Strategie verwenden. Tests, die bestätigt wurden, sollten Sie auf jeden Fall in Ihren Arbeitsablauf aufnehmen.
Fangen wir an...
Zunächst erstellen wir 5 Datensätze. Mit Datensatz meinen wir 100 000 Strategien, die auf der Grundlage eines sehr allgemeinen Rankings ausgewählt wurden.
Ich habe die von SQX generierten Strategien nach diesen grundlegenden Kriterien gefiltert:
Ich werde dieses Verfahren in verschiedenen Zeiträumen wiederholen
Jeder Datensatz hatte eine Einstellung von IS = 30% und OOS 70%, true out of sample war 2 Jahre.
Ich habe eine einfache Art von Strategien für einen 4-Stunden-Zeitrahmen erstellt. Die Strategie konnte nur durch Enter At Market einsteigen. Ich habe sowohl Stop-Loss als auch Gewinnziel auf ATR-Basis gesetzt. Ich habe nur eingebaute integrierte Indikatoren und nur Bedingungen verwendet. Strategien Strategien könnten maximal zwei Bedingungen für den Einstieg haben.
Wir haben den 4-Stunden-Zeitrahmen gewählt, aber meine Erfahrung ist, dass einzelne Zeitrahmen, Märkte und Setups ihre Eigenheiten haben können, so dass es nicht möglich ist, nach einer einzigen Analyse allgemeine Schlussfolgerungen zu ziehen. Das Ziel der Studie war es, Trends bei der Verwendung von Robustheitstests aufzuzeigen, um den Arbeitsablauf für weitere Analysen vorzubereiten und Fragen zur Diskussion zu stellen.
Das Erstellen und Bereinigen eines so großen Datensatzes (5* 100 000) ist sehr zeit- und arbeitsaufwändig. Ich habe die Strategien auf 2 AMD Threadripper 2950-Workstations mit 32 Prozessoren erstellt. Die Erstellung der Strategie mit einem benutzerdefinierten Projekt dauerte etwa 12 Tage.
Spreads, Swaps werden nach Darwinex Broker eingestellt, alle Spreads werden um 0,5 Pip erhöht oder aufgerundet. Für jeden Handel wurde eine Kommission von 2,2 USD berechnet.
In der folgenden Abbildung sind die qualitativen Merkmale der einzelnen Strategiedatensätze für einen bestimmten Zeitraum dargestellt.
In der grüne Spalte wir haben die Werte der Strategiemetriken, die im Zeitraum außerhalb der Stichprobe gewonnen wurden
In der blauen Spalte haben wir die Werte der Strategien in der wahrheitsgemäß außerhalb der Stichprobe Zeitraum
Wie aus dem obigen Diagramm hervorgeht, verlieren die Strategien in echten Out-of-Sample-Perioden ihre Performance. Beachten wir die Instabilität der Performance der Strategien in ihren echten Out-of-Sample-Perioden.
Es gibt Jahre, in denen der durchschnittliche Profit-Faktor der Strategien in true out of sample über 1 liegt und es gibt Jahre (2018 / 2019 / 2020) unter 1. Mit anderen Worten, die Strategien verlieren im Durchschnitt. Ähnlich instabile und niedrige Werte sind im Fall von Avg. Trade und Ret/DD Ratio.
Ausschüttungsquote , Avg. Stunden im Handel und Avg. Trades pro Monat sind in der Nicht-Stichprobe und in der echten Nicht-Stichprobe relativ ähnlich.
In der nachstehenden Abbildung sehen Sie im grünen Kasten die absolute Veränderung (Delta) zwischen dem Out of Sample und dem True Out of Sample dieser Strategiemetriken:
Im linken Teil (grüner Rahmen) sehen wir das Delta (die Differenz) der ausgewählten Metriken zwischen ihrem Out of Sample und ihrem True Out of Sample.
Im rechten Teil (blauer Rahmen) sehen wir den Sheppard's Korrelationskoeffizienten im Falle von Profit Factor, Payout Ratio, Avg.Trade, Ret/ DD Ratio zwischen den Werten dieser Indikatoren in out of sample und in true out of sample. Wir können sehen, dass die Korrelationen für Profit Factor, Avg. Trade, Ret/ DD Ratio recht niedrig und unbeständig sind. Mit anderen Worten, die niedrigen Werte deuten auf einen geringen Vorhersagewert zwischen den Werten außerhalb der Stichprobe und den echten Werten außerhalb der Stichprobe hin.
Analysen anderer Datensätze und anderer Strategietypen zeigen eine unterschiedliche Performance von Strategien mit und ohne Preisaktionsblöcke. Ich werde nun den gesamten 5*100 000 Strategiedatensatz in Datensätze aufteilen
Werfen wir also einen weiteren Blick auf den partitionierten Basisdatensatz
In den folgenden Abbildungen sehen wir die gleichen Statistiken wie oben, jedoch für Strategien, bei denen es Indikator + Preisaktionsblöcke. Die Struktur der angezeigten Daten ist genau dieselbe wie bei der obigen Analyse des gesamten Datensatzes.
In den folgenden Abbildungen sehen wir die grundlegenden Merkmale des Datensatzes Nur mit Preisaktionsblöcken.
Meine Hypothese basiert auf einer ähnlichen Analyse zu Indizes und geht davon aus, dass Strategien mit NUR Preisaktionsblöcken sowohl bei Out-of-Sample- als auch bei True-out-of-Sample-Analysen besser abschneiden. Es stellt sich heraus, dass in dieser Analyse die Annahme nicht erfüllt wurde und die bessere Performance von Strategien mit Indikatoren und Preisaktionsblöcken erhalten bleibt. Beachten Sie, dass bei Out-of-Sample die Performance bei Strategien mit NUR Preisaktionsblöcken besser ist, und bei True-out-of-Sample die Performance bei Strategien mit nur Preisaktionsblöcken schlechter ist. Obwohl wir einige Unterschiede feststellen können, sind sie nicht sehr signifikant und konsistent.
Der Basisdatensatz besteht aus Strategien, die die grundlegenden Out-of-Sample-Anforderungen erfüllen, und wir haben keine Robustheitstests durchgeführt. Die folgende Frage lautet, ob wir mit den ausgewählten Strategien im Vergleich zum Basisdatensatz mit echten Stichprobenausfällen (ohne Robustheitstests, nur mit den oben genannten grundlegenden Rankings) statistisch bessere Ergebnisse erzielen können, indem wir die ausgewählten Robustheitstests durchführen.
Der Analyseprozess
Anmerkung. Ich habe Ausreißer nicht aus der Analyse ausgeschlossen.
Wir werden die Leistung der Robustheitstests für diese Metriken überwachen:
Wir werden die folgenden Robustheitstests analysieren
Anmerkung: Monte Carlo Randomize Strategy Parameters wird nur auf Strategien mit Indikatoren und Preisaktionsblöcken angewendet. Wir wenden diesen Test nicht auf Strategien an, die nur Preisaktionsblöcke enthalten, da wir NUR die Perioden der angegebenen Indikatoren randomisieren.
Werfen wir einen kurzen Blick darauf, wie wir die einzelnen Robustheitstests festgelegt haben.
Verhältnis von OOS/IS-Kennzahlen
Das Verhältnis von Out-of-Sample-Metriken zu Insample-Metriken.
Durchschnitt der zusätzlichen Märkte Matriken
Wir haben Backtests für die Märkte durchgeführt, wobei wir für jeden Datensatz den Teil der Daten verwendet haben, der nicht zur Stichprobe gehörte. Sie zeigt den Durchschnittswert einer bestimmten Kennzahl aus Backtests auf allen zusätzlichen Märkten.
Sie können diese Schnipsel von unserem Freigabeserver herunterladen hier.
Wir haben diese Märkte getestet:
Monte Carlo Retest-Methoden: OHLC-Historiendaten randomisieren
Wir haben Randomize OHLC history data verwendet, das in Version 136 hinzugefügt wurde. Die Einstellungen sind in der Abbildung unten zu sehen.
Monte Carlo Retest-Methoden: Randomisierung der Strategieparameter - Perioden
Für den Test der randomisierten Strategieparameter habe ich ein modifiziertes Snippet verwendet, bei dem nur die Perioden der Parameter randomisiert wurden.
Monte Carlo Randomize Trades Manipulation : Randomize Trades Order
In der folgenden Abbildung sehen wir die Robustheitsmetriken sortiert nach Avg. Profit Factor in true out of sample vs. Avg.Profit Factor All in true out of sample in dem Datensatz mit kein Robustheitstest durchgeführt.
In den blauen und weißen Spalten sehen wir den Vergleich in jedem Zeitraum, in dem wir den Datensatz erstellt haben.
Erläuterung zur Tabelle
Wie ist die obige Tabelle zu bewerten?
Die erste Spalte im blauen Rahmen auf der linken Seite zeigt das Jahr 2017. Profit Factor Avg. stellt den durchschnittlichen Gewinnfaktor von 1% (99. Perzentil) der nach dem Robustheitstest ausgewählten Strategien dar. Profit Factor All Avg. steht für den durchschnittlichen Gewinnfaktor aller Strategien in einer gegebenen True-Out-of-Sample.
Wir haben also die Strategien entsprechend dem Robustheitstest in der Nicht-Stichprobe ausgewählt, aber wir vergleichen die Ergebnisse dieser Strategien in der echten Nicht-Stichprobe. Das Delta ist die absolute Veränderung der Durchschnittswerte.
In den blauen Kästen finden Sie alle Zeiträume (Datensätze), in denen wir die Studie durchgeführt haben, und in der letzten roten Spalte sehen Sie die prozentuale Veränderung des Durchschnitts der auf der Grundlage des Robustheitstests ausgewählten Strategien und des gesamten Datensatzes.
Unter den drei untersuchten Metriken steht die Multi Market Performance der Strategien an erster Stelle.
Der vierte effiziente Robustheitstest ist die Auswahl von 1% Strategien gemäß MCRHD: Avg. Trade (MC retest, Conf. level 95%), was die Leistung im Durchschnitt um 7,8% erhöht.
Die beiden anderen sind 1. TV: Avg. Trade (OOS), 1. TV: ProGewinnfaktor (OOS). Wenn wir 1% der Strategeme nach diesen Strategiemetriken auswählen würden, würde der Gewinnfaktor im OOS um durchschnittlich 6% steigen. Auch die OOS/IS-Kennzahlen schneiden recht gut ab.
Auch hier wende ich Robustheitstests NUR auf Strategien an, die im Bauprozess anhand der folgenden Kriterien gefiltert wurden.
Da es sich um Strategien handelt, bei denen wir haben keine erweiterte Filterung angewandt, wir haben keinen grundlegenden Arbeitsablauf simuliert. Nehmen Sie die Ergebnisse daher bitte als Hinweis auf den Trend.
Die Verbesserung der Leistung der grundlegenden Metriken bei OOS ist auch darauf zurückzuführen, dass wir bei der Erstellung der Datensätze nur grundlegende Rankings verwendet haben. Mit anderen Worten: Die von uns verwendeten Kriterien wurden so festgelegt, dass möglichst schnell möglichst viele profitable Strategien generiert werden. Im nächsten Teil werden wir die Möglichkeit eröffnen, die aktuellen Rankings zu simulieren und Robustheitstests auf diese Strategien anzuwenden.
In der folgenden Abbildung ist eine vereinfachte Version des obigen Diagramms dargestellt.
Art des Robustheitstests | Durchschnittliche %-Verbesserung des Profit-Faktors in der echten Out of Sample-Periode gegenüber dem Profit-Faktor in der Out of Sample-Periode |
Multi Market Performance | 12.11 |
Monte Carlo Retest-Methoden: OHLC-Historiendaten randomisieren | 4.71 |
Verhältnis von Metriken außerhalb der Stichprobe zu Metriken innerhalb der Stichprobe | 4.61 |
Kennzahlen außerhalb der Stichprobe (Durchschnitt von Profit-Faktor, Avg.Trade, Profit-Faktor) | 4.61 |
Verhältnis der Monte-Carlo-Retest-Methoden: Randomisierte OHLC-Historiendaten vs. Out of Sample-Metriken | 3.59 |
Monte Carlo Randomize Trades Manipulation : Randomize Trades Auftrag | 3.44 |
Verhältnis von Monte Carlo Randomize Trades Manipulation : Randomize Trades Order vs. Out of Sample Metriken | 2.13 |
Monte Carlo Retest-Methoden: Randomisierung der Strategieparameter - Perioden | -6.06 |
Verhältnis von Monte-Carlo-Randomisierungsstrategie-Parametern zu Out-of-Sample-Metriken | -9.09 |
In der obigen Abbildung sehen wir die durchschnittliche Verbesserung des prfot-Faktors für eine bestimmte Art von Robustheit. Das Ergebnis ist die erste von drei Metriken, die zur Bewertung der Robustheitstests verwendet werden (Durchschnitt des Profit-Faktors, Avg.Trade, Profit-Faktor)
Multi Market Performance ( OOS ) würde zu einer durchschnittlichen Verbesserung des Gewinnfaktors der Strategie von 12% in der echten Periode außerhalb der Stichprobe führen. Die zweite Der beste Robustheitstest ist der Monte Carlo Retest-Methode: Randomisierung der historischen OHLC-Daten würde im Durchschnitt zu einer Verbesserung des Gewinnfaktors der Strategie um 4,7% in der echten Periode außerhalb der Stichprobe führen.
In der obigen Analyse haben wir grundlegende Metriken für die Strategieauswahl verwendet. Gibt es Strategiemetriken mit höherem Vorhersagewert? Dieses Problem kann mit verschiedenen Methoden geklärt werden. Wir wollen einige Methoden aus dem maschinellen Lernen mit Merkmalsextraktionsproblemen kennenlernen. Die grundlegende Logik besteht darin, dass wir die Beziehung zwischen den Strategiemetriken in der Nicht-Stichprobe und die Beziehung zwischen der Variablenabhängigkeit in der echten Nicht-Stichprobe messen.
Maximaler Informationskoeffizient
Dabei handelt es sich um eine nichtparametrische Methode zur Bewertung sowohl linearer als auch nichtlinearer Beziehungen zwischen Variablen. In der nachstehenden Grafik sehen wir die Beziehung zwischen den ausgewählten Variablen (linke Spalte) der Out-of-Stichprobe und der Profit-Faktor in der echten Stichprobe in jedem der Datensätze. Dies sind sehr vorläufige Berechnungen, aber es ist zu beachten, dass weder der Profit-Faktor, Avg.Trade noch das Ret/DD-Verhältnis auf den vorderen Plätzen zu finden sind. Aus diesen Informationen können wir schließen, dass es bessere Strategiemetriken für die Vorhersage der zukünftigen Performance von Startups gibt, die nicht in der Stichprobe enthalten sind.
Wir werden die gegebene Analyse um mehrere Schritte erweitern
Wohin werden wir in weiteren Analysen gehen, nachdem die endgültige Version 137 veröffentlicht wurde?
Im einleitenden Teil haben wir vorgeschlagen, dass der effektivste Test des 4-Stunden-Zeitrahmens für EURUSD darin besteht, eine Multi-Market-Strategie zu testen - Multi-Market-Robustheit. Wir haben festgestellt, dass einige Strategiemetriken einen höheren Vorhersagewert haben können als andere. Wir haben festgestellt, dass die Zufallsauswahl historischer Daten ebenfalls zu interessanten Verbesserungen führen kann.
Ich werde auf diesen Datensatz in einem Artikel im Oktober zurückkommen, wo wir versuchen werden, einige der am Ende des Artikels erwähnten Verbesserungen anzuwenden. Dann werden wir im November und Dezember einen ähnlichen Datensatz mit den Verbesserungen erstellen und uns auf die Strategien und den stündlichen Zeitrahmen der Indizes konzentrieren.
Ich begrüße alle konstruktiven Vorschläge und Kritiken.
We’ve got an exciting interview with René Balke from BM Trading, an algo trader who’s nailed FTMO prop trading challenges. In our latest video, René shares his journey and secrets …
In this exclusive interview, Rubén Martínez, founder of the La City community and capital manager, shares his incredible journey from his beginnings as a discretionary trader to becoming a successful …
Could you introduce yourself, what is your daily job etc. Hello, my name is EDAU87. I’m excited to have this opportunity to introduce myself and share a bit about my …
Interessanter Artikel. Ich danke Ihnen vielmals. Frage: Gibt es Überlegungen, das R-Quadrat als Fitnessfunktion zu verwenden?
Ich danke Ihnen,
Rot
Hey, Redlock. In dieser Untersuchung habe ich keinen signifikanten Zusammenhang zwischen R-Quadrat und echter Out-of-Sample-Leistung gefunden.
"Ausgezeichneter Artikel. Wie immer! Haben Sie bei der Auswahl der Währungen irgendwelche Kriterien angewandt? Gibt es eine bestimmte Korrelation?"
Ich danke Ihnen!
Hallo Diego. Ich habe nach der Liquidität ausgewählt, aber beim nächsten Mal werde ich die Märkte nach der Korrelation auswählen. Es war keine ideale Wahl.
Ein großartiger Artikel, vielen Dank.
Frage: Können wir auch den Effekt der Edge Ratio in den Robustheitstest für den Devisenmarkt einbeziehen?
Hallo, Stu. Hast du eine konkrete Idee, wie man den Edge Ratio Robustheitstest umsetzen kann?
Wie wäre es mit dem gleichen Ansatz, wie er in diesem Blog beschrieben wird?
https://strategyquant.com/blog/edge-ratio-in-strategyquant-x
Diese Art von Arbeit ist sehr gut, schließlich wollen wir wissen, welche Tests im Live-Handel wirklich nützlich sind, denn wenn man alle Tests durchführt, ist das zeitaufwändig und es kommt kaum eine Strategie heraus.
Mikael
Danke Mikael, ja, ich stimme zu.
Hallo, in welchem Bereich sollte die Korrelation von Währungspaaren bei der Auswahl eines Multi-Marktes liegen? Sollten Währungspaare mit einer Korrelation nahe Null für Robustheitstests verwendet werden?