Was wir aus der Analyse von 1,2 Millionen FX-Strategien gelernt haben - Teil 4: Merkmalsauswahl

In der heutigen Folge bauen wir auf den Erkenntnissen aus den vorangegangenen Teilen auf, in denen wir versucht haben, die Faktoren zu ermitteln und zu messen, die die tatsächliche Out-of-Sample-Performance von Strategien beeinflussen können. ( WFOS )

Die gesamte Serie ist das Ergebnis einer 2019/2020 durchgeführten Untersuchung, die sich thematisch auf die Methodik zur Bewertung und Auswahl der in StrategyQuant generierten Strategien konzentriert

Die erster Teil widmete sich den Auswirkungen der Strategiekomplexität und der Anzahl der Trades auf die potenzielle Performance im True-out-of-Sample-Bereich, und die zweiter Teil auf die Empfindlichkeit der Strategie gegenüber höheren Spreads.

Die dritter Teil befasste sich mit dem Einfluss traditioneller Ranking-Indikatoren auf die Leistung von Strategien im True-out-of-Sample ( WFOS ).

Im heutigen Teil werden wir einfache Techniken zur Merkmalsauswahl anwenden und versuchen, die Faktoren zu bewerten, die die Leistung in der True out of sample period ( WFOS ) beeinflussen. Die für diese Analyse verwendeten Methoden finden Sie unter https://machinelearningmastery.com/ oder in dem hervorragenden Buch Data Preparation for Machine Learning.

Was meine ich mit Merkmalen? Stellen wir uns vor, wir generieren Strategien. Definieren wir den Datenzeitraum innerhalb der Stichprobe und den Datenzeitraum außerhalb der Stichprobe. Der Zeitraum außerhalb der Stichprobe ist derjenige, den wir nicht für das Ranking oder die Strategieauswahl bei der Strategieerstellung verwenden.

Unter Merkmalen verstehen wir die qualitativen Metriken der Strategien in ihrer Out-of-Sample-Periode. Die Auswahl von Strategien aus In-Sample-Daten ist nicht sehr nützlich, wenn sie genetisch verwendet werden, weil sie zu stark angepasst werden. Und ihre Auswirkungen werden an einer Datenstichprobe untersucht, die wir bei ihrer Entwicklung überhaupt nicht verwendet haben.

Ziel ist es, solche Faktoren in einem Zeitraum außerhalb der Stichprobe zu identifizieren, die einen hypothetischen Vorhersagewert für die Gewinnfaktor-Strategie in dem Zeitraum außerhalb der Stichprobe haben könnten. (WFOS)

Mit der einfachen Methode messen wir die Korrelation zwischen den Indikatoren im Zeitraum außerhalb der Stichprobe und dem Gewinnfaktor im echten Zeitraum außerhalb der Stichprobe. (WFOS)

Bei der Wahl eines Korrelationskoeffizienten gibt es mehrere Möglichkeiten. Jede hat ihre eigenen Vor- und Nachteile. In unserem Fall wird der entscheidende Faktor sein, wie robust er gegenüber Ausreißern ist. Sie können im Internet viele Quellen und Meinungen finden, unsere Wahl fällt auf den Korrelationskoeffizienten von Spearman. Mehr zu diesem Thema finden Sie auf Stackexchange in diesem Forum

In der folgenden Analyse werden wir die Strategie entsprechend der Auswahl und den Erkenntnissen, die wir in den vorangegangenen Teilen gewonnen haben, untersuchen.

Wir werden 4 Szenarien simulieren:

  1. Datensatz ohne Auswahl ( alle Strategien )
  2. Datensatz mit Strategien der Komplexität 4 bis 6
  3. Datensatz mit Strategien der Komplexität 4 bis 6 und mit einer durchschnittlichen Anzahl von Abschlüssen pro Jahr im Intervall 30 bis 80
  4. Datensatz mit Strategien der Komplexität 4-6 und mit einer durchschnittlichen Anzahl von Trades pro Jahr im Intervall von 30 bis 80 und einem Spread-Ratio größer als 0,8

1. Szenario - Datensatz ohne Auswahl ( alle Strategien )

In diesem Beispiel wird keine Selektion vorgenommen. Mit anderen Worten, wir nehmen den Rohdatensatz und analysieren die Korrelation zwischen den Out-of-Sample-Strategiemetriken und dem Gewinnfaktor im echten Out-of-Sample-Zeitraum (WFOS).

In den Spalten oben haben wir aufgelistet:

  • Faktor ist der Name der Strategiemetrik im Zeitraum außerhalb der Stichprobe.
  • Absoluter Korrelationskoeffizient
  • Korrelationskoeffizient

Je höher der absolute Spearman-Korrelationskoeffizient ist, desto stärker ist die Beziehung zwischen dem Faktor und dem Gewinnfaktor im Zeitraum True out of sample.

Mit anderen Worten: Je länger die Strategien auf dem Markt sind, desto höher ist wahrscheinlich der Gewinnfaktor, der sich aus der Stichprobe ergibt.

Ein weiterer Faktor, der Aufmerksamkeit verdient und an erster Stelle steht, ist die statistische Signifikanz, d. h. das Verhältnis zwischen der Anzahl der Abschlüsse in einer Strategie und ihrer Komplexität. Mit anderen Worten: Je mehr Trades eine Strategie macht und je weniger Vollständigkeit sie hat, desto höher ist die statistische Signifikanz.

2. Szenario - Strategien mit Komplexität 4 bis 6

In diesem Datensatz werde ich nur Strategien mit der Komplexität 3 bis 6 berücksichtigen. Ich betrachte Komplexität als einen Schlüsselfaktor. Ein gutes Zitat, das diesen Gedanken auf den Punkt bringt, ist

"Wenn der Algorithmus zu komplex oder zu flexibel ist (z. B. zu viele Eingangsmerkmale hat oder nicht richtig reguliert ist), kann es passieren, dass er sich das Rauschen merkt, anstatt das Signal zu finden.

Quelle: https://elitedatascience.com/overfitting-in-machine-learning#:~:text=Noise%20interferes%20with%20signal.&text=If%20the%20algorithm%20is%20too,predictions%20based%20on%20that%20noise.

3. Szenario - Datensatz von Strategien mit einer Komplexität von 4 bis 6 a und durchschnittlichen Abschlüssen pro Jahr von 30 bis 80

Wir arbeiten unter den Bedingungen einer möglichen starken Überanpassung. Einer der grundlegenden Ansätze, um diesem Problem zu begegnen, besteht darin, neben einer geringeren Komplexität auch die Anzahl der Beobachtungen, d. h. die Anzahl der Trades, zu erhöhen. Die Überlegungen zur Anzahl der Trades basieren wiederum auf der Literatur zum maschinellen Lernen, aber auch auf der exzellenten Serie von Martin Tinsley, die Sie auf youtube unter dem Titel Algorithmisches Backtesting und Optimierung für Alphas.

4. Szenario - Datensatz von Strategien mit einer Komplexität von 4 bis 6 a mit durchschnittlichen Trades pro Jahr von 30 bis 80 und einem Spread-Ratio > 0,8

In der obigen Tabelle sehen wir % Annual Return, Exposure und Avg.Win auf den vorderen Plätzen.

Mit anderen Worten: Wenn ich Strategien für den Zeitraum 1986-2022 auswählen und Out of Sample 2006-2022 verwenden würde, würde ich mit Strategien beginnen, die auf diesen Metriken basieren.

Zusammenfassung

Wenn wir uns die verschiedenen Szenarien genau ansehen, können wir feststellen, dass sich einige Faktoren wiederholen.

Mit anderen Worten: Die Filterung von Strategien nach ihrem Engagement, ihrem Avg. Gewinn und dem jährlichen Reingewinn kann ein guter Anfang sein, um eine Strategie zu bewerten.

Es sei auch darauf hingewiesen, dass einige traditionelle Faktoren wie die Sharpe Ratio und die RetDD Ratio in unserer Analyse konstant niedriger eingestuft wurden. Diese Analyse kann für jeden Markt und jeden Zeitrahmen durchgeführt werden.

Mit StrategyQuantX ist es möglich, Daten zu sammeln und sie in einer externen Umgebung auszuwerten. Ich habe Python verwendet, aber Sie können auch Excel oder etwas anderes verwenden.

Es ist eine sehr vereinfachte Version dessen, was ich tatsächlich verwende, aber es ist ein guter Anfang für Ihre eigene Forschung. Mit StrategyQuantX ist es möglich, über benutzerdefinierte Projekte, die Daten aus einer Datenbank exportieren, eine riesige Datenmenge zu sammeln, und es liegt an Ihnen, wie Sie dieses Tool nutzen.

 

Abonnieren
Benachrichtigen Sie mich bei
2 Kommentare
Älteste
Neuestes Meistgewählt
Inline-Rückmeldungen
Alle Kommentare anzeigen
TesCZ
TesCZ
7. 4. 2022 12:30 Uhr

Danke für den Artikel

Emmanuel
11. 4. 2022 6:04 Uhr

Ja, vielen Dank für diesen Artikel !!!!

Lesen Sie weiter