Cosa abbiamo imparato analizzando 1,2 milioni di strategie FX - Parte 4: Selezione delle caratteristiche

Nella puntata di oggi, ci basiamo sui risultati delle parti precedenti, in cui abbiamo cercato di identificare e misurare i fattori che possono influenzare la vera performance fuori campione delle strategie. ( WFOS )

L'intera serie è il risultato di una ricerca condotta nel 2019/2020 che si è concentrata tematicamente sulla metodologia utilizzata per valutare e selezionare le strategie generate in StrategyQuant.

Il prima parte è stato dedicato all'impatto della complessità della strategia e del numero di operazioni sulla performance potenziale nell'intervallo vero-fuori-campione, mentre il seconda parte alla sensibilità della strategia a spread più elevati.

Il terza parte si è occupata dell'influenza degli indicatori di ranking tradizionali sulla performance delle strategie nel true-out-of-sample ( WFOS ).

Nella parte odierna, applicheremo semplici tecniche di selezione delle caratteristiche e cercheremo di valutare i fattori che influenzano le prestazioni nel periodo True out of sample ( WFOS ). I metodi utilizzati per questa analisi sono disponibili su https://machinelearningmastery.com/ o nell'eccellente libro Data Preparation for Machine Learning.

Cosa intendo per caratteristiche? Immaginiamo di generare strategie. Definiamo il periodo dei dati nel campione e il periodo dei dati fuori dal campione. Il periodo fuori dal campione è quello che non utilizziamo per la classificazione o la selezione delle strategie nella generazione delle strategie.

Per caratteristiche intendiamo le metriche qualitative delle strategie nel periodo fuori dal campione. La selezione delle strategie a partire dai dati del campione non è molto utile se utilizzata in modo genetico a causa dell'overfitting. Inoltre, i loro effetti sono studiati su un campione di dati che non abbiamo utilizzato per il loro sviluppo.

L'obiettivo è identificare tali fattori in un periodo fuori campione che potrebbero avere un ipotetico valore predittivo per la strategia del fattore di profitto nel periodo vero fuori campione. (WFOS )

Utilizzando il metodo semplice, misureremo la correlazione tra gli indicatori nel periodo fuori campione e il fattore di profitto nel vero periodo fuori campione. (WFOS )

Nella scelta di un coefficiente di correlazione esistono diverse opzioni. Ognuna ha i suoi vantaggi e svantaggi. Nel nostro caso, il fattore decisivo sarà la sua resistenza agli outlier. Su Internet si possono trovare molte fonti e opinioni, la nostra scelta ricade sul coefficiente di correlazione di Spearman. Potete trovare maggiori informazioni su questo argomento su Stackexchange in questo articolo forum

Nell'analisi che segue, analizzeremo la strategia in base alla selezione e ai risultati ottenuti nelle parti precedenti.

Verranno simulati 4 scenari:

  1. Set di dati senza alcuna selezione (tutte le strategie)
  2. Set di dati con strategie di complessità da 4 a 6
  3. Set di dati con strategie di complessità da 4 a 6 e con un numero medio di operazioni all'anno nell'intervallo 30-80.
  4. Set di dati con strategie di complessità 4-6 e con un numero medio di operazioni all'anno nell'intervallo 30-80 e spread ratio superiore a 0,8.

1. Scenario - Insieme di dati senza alcuna selezione ( tutte le strategie )

In questo esempio, non utilizziamo la selezione. In altre parole, prendiamo il set di dati grezzi e analizziamo la correlazione tra le metriche della strategia fuori dal campione e il fattore di profitto nel vero periodo fuori dal campione ( WFOS ).

Nelle colonne precedenti abbiamo elencato:

  • Fattore è il nome della metrica della strategia nel periodo fuori campione.
  • Coefficiente di correlazione assoluta
  • Coefficiente di correlazione

Più alto è il coefficiente assoluto di correlazione di Spearman, più forte è la relazione tra il fattore e il fattore di profitto nel vero periodo fuori campione.

Vale la pena di prestare attenzione alle metriche della strategia che vengono prima - Esposizione In altre parole, più a lungo le strategie sono state sul mercato, più alto sarà probabilmente il fattore di profitto in vero fuori campione.

Un altro fattore che merita attenzione e che viene prima di tutto è la significatività statistica, ovvero la relazione tra il numero di operazioni di una strategia e la sua complessità. In altre parole, più operazioni effettua una strategia e meno completezza ha, più alta è la significatività statistica.

2. Scenario - Strategie con complessità da 4 a 6

In questo set di dati, considererò solo le strategie con complessità da 3 a 6. Considero la complessità un fattore chiave. Una buona citazione che cattura l'essenza di questa idea è

"Se l'algoritmo è troppo complesso o flessibile (ad esempio, ha troppe caratteristiche in ingresso o non è adeguatamente regolarizzato), può finire per "memorizzare il rumore" invece di trovare il segnale".

Fonte: https://elitedatascience.com/overfitting-in-machine-learning#:~:text=Noise%20interferes%20with%20signal.&text=If%20the%20algorithm%20is%20too,predictions%20based%20on%20that%20noise.

3. Scenario - Dataset di strategie con complessità da 4 a 6 a con scambi medi annui da 30 a 80.

Lavoriamo in condizioni di possibile elevato overfitting. Uno degli approcci di base per contrastare questo problema è quello di aumentare il numero di osservazioni, cioè il numero di operazioni, oltre a ridurre la complessità. Anche in questo caso, il ragionamento sul numero di operazioni si basa sulla letteratura sull'apprendimento automatico, ma anche sull'eccellente serie di Martin Tinsley che si può trovare su youtube con il titolo Backtesting algoritmico e ottimizzazione per gli alfa.

4. Scenario - Dataset di strategie con complessità da 4 a 6 a con operazioni medie annue da 30 a 80 e spread ratio > 0,8.

Nella tabella precedente vediamo % Annual Return, Exposure e Avg.Win ai primi posti.

In altre parole: Se dovessi selezionare le strategie per il periodo 1986-2022 e utilizzare l'Out of Sample 2006-2022, inizierei con strategie basate su queste metriche.

Sintesi

Se osserviamo attentamente i diversi scenari, possiamo notare che alcuni fattori si ripetono.

In altre parole, filtrare le strategie in base alla loro esposizione, all'Avg. Win e profitto netto annuale può essere un buon inizio per la scelta di una strategia di valutazione.

Notiamo anche che alcuni fattori tradizionali come lo Sharpe Ratio e il RetDD ratio si sono classificati costantemente più in basso nella nostra analisi. Questa analisi può essere effettuata per qualsiasi mercato e per qualsiasi orizzonte temporale.

Utilizzando StrategyQuantX è possibile raccogliere dati e valutarli in un ambiente esterno. Io ho usato python, ma voi potete usare excel o qualsiasi altra cosa.

Si tratta di una versione molto semplificata di ciò che utilizzo effettivamente, ma è un buon inizio per la vostra ricerca. Con StrategyQuantX è possibile raccogliere un'enorme quantità di dati utilizzando progetti personalizzati che esportano i dati da un database.

 

Abbonarsi
Notificami
2 Commenti
Il più vecchio
Più recente I più votati
Feedback in linea
Visualizza tutti i commenti
TesCZ
TesCZ
7. 4. 2022 12:30

grazie per l'articolo

Emmanuel
11. 4. 2022 6:04 pm

Sì, grazie mille per questo articolo !!!!

Continua a leggere