Lo que hemos aprendido analizando 1,2 millones de estrategias de FX - Parte 4: Selección de características

En el episodio de hoy, nos basamos en las conclusiones de las partes anteriores, en las que intentamos identificar y medir los factores que pueden afectar al verdadero rendimiento fuera de muestra de las estrategias. ( WFOS )

Toda esta serie es el resultado de la investigación realizada en 2019/2020 que se centró temáticamente en la metodología utilizada para evaluar y seleccionar las estrategias generadas en StrategyQuant

En primera parte se dedicó al impacto de la complejidad de la estrategia y el número de operaciones sobre el rendimiento potencial en el rango verdadero-fuera-de-muestra, y el segunda parte a la sensibilidad de la estrategia a diferenciales más altos.

En tercera parte se ocupó de la influencia de los indicadores de clasificación tradicionales en el rendimiento de las estrategias en la muestra verdadera ( WFOS ).

En la parte de hoy, aplicaremos técnicas sencillas de selección de características e intentaremos evaluar los factores que influyen en el rendimiento en el periodo True out of sample ( WFOS ). Los métodos utilizados para este análisis se pueden encontrar en https://machinelearningmastery.com/ o en el excelente libro Data Preparation for Machine Learning.

¿Qué quiero decir con características? Imaginemos que generamos estrategias. Definamos el periodo de datos dentro de la muestra y el periodo de datos fuera de la muestra. El periodo fuera de muestra es el que no utilizamos para la clasificación o la selección de estrategias en la generación de estrategias.

Por características entendemos las métricas cualitativas de las estrategias en su periodo fuera de muestra. La selección de estrategias a partir de datos dentro de la muestra no es muy útil cuando se utiliza genéticamente debido al sobreajuste. Y sus efectos se estudian en una muestra de datos que no hemos utilizado en absoluto para su desarrollo.

El objetivo es identificar dichos factores en un periodo fuera de muestra que podrían tener un valor predictivo hipotético para la estrategia del factor de beneficio en el periodo real fuera de muestra. (WFOS )

Utilizando el método simple, mediremos la correlación entre los indicadores en el periodo fuera de muestra y el factor de beneficio en el verdadero periodo fuera de muestra. (WFOS )

Existen varias opciones a la hora de elegir un coeficiente de correlación. Cada uno tiene sus ventajas e inconvenientes. En nuestro caso, el factor decisivo será su robustez frente a los valores atípicos. Puedes encontrar muchas fuentes y opiniones en Internet, nuestra elección recae en el coeficiente de correlación de Spearman. Puede encontrar más información sobre este tema en Stackexchange en este enlace foro

En el siguiente análisis, analizaremos la estrategia de acuerdo con la selección y las conclusiones que hemos hecho en las partes anteriores.

Simularemos 4 escenarios:

  1. Conjunto de datos sin ninguna selección ( todas las estrategias )
  2. Conjunto de datos con estrategias de complejidad 4 a 6
  3. Conjunto de datos con estrategias de complejidad 4 a 6 y con un número medio de operaciones al año en el intervalo de 30 a 80.
  4. Conjunto de datos con estrategias de complejidad 4-6 y con un número medio de operaciones al año en el intervalo de 30 a 80 y ratio de spread superior a 0,8.

1. Escenario - Conjunto de datos sin ninguna selección ( todas las estrategias )

En este ejemplo, no utilizamos la selección. En otras palabras, tomamos el conjunto de datos brutos y analizamos la correlación entre las métricas de la estrategia fuera de muestra y el factor de beneficio en el verdadero periodo fuera de muestra ( WFOS ).

En las columnas anteriores hemos enumerado:

  • Factor es el nombre de la métrica de la estrategia en el periodo Fuera de Muestra.
  • Coeficiente de correlación absoluta
  • Coeficiente de correlación

Cuanto mayor sea el coeficiente absoluto de correlación de Spearman, más fuerte será la relación entre el factor y el factor de beneficio en el período de muestreo Verdadero fuera de la muestra.

En otras palabras, cuanto más tiempo lleven las estrategias en el mercado, mayor será probablemente el factor de beneficio en verdad fuera de muestra.

Otro factor que merece atención y ocupa el primer lugar es la significación estadística, que es la relación entre el número de operaciones de una estrategia y su complejidad. En otras palabras, cuantas más operaciones realice una estrategia y menos completa sea, mayor será su significación estadística.

2. Escenario - Estrategias de complejidad 4 a 6

En este conjunto de datos, sólo tendré en cuenta las estrategias con una complejidad de 3 a 6. Considero que la complejidad es un factor clave. Una buena cita que capta la esencia de esta idea es

"Si el algoritmo es demasiado complejo o flexible (por ejemplo, tiene demasiadas características de entrada o no está bien regularizado), puede acabar "memorizando el ruido" en lugar de encontrar la señal".

Fuente: https://elitedatascience.com/overfitting-in-machine-learning#:~:text=Noise%20interferes%20with%20signal.&text=If%20the%20algorithm%20is%20too,predictions%20based%20on%20that%20noise.

3. Escenario - Conjunto de datos de estrategias con una complejidad de 4 a 6 a con un promedio de operaciones por año de 30 a 80

Trabajamos en condiciones de posible sobreajuste elevado. Uno de los enfoques básicos para contrarrestar este problema es aumentar el número de observaciones, es decir, el número de operaciones, además de reducir la complejidad. Una vez más, el razonamiento sobre el número de operaciones se basa en la literatura sobre aprendizaje automático, pero también en la excelente serie de Martin Tinsley que se puede encontrar en youtube bajo el título Backtesting algorítmico y optimización para alfas.

4. Escenario - Conjunto de datos de estrategias con una complejidad de 4 a 6 a con un promedio de operaciones al año de 30 a 80 y un ratio de diferencial > 0,8

En la tabla anterior vemos % Rentabilidad Anual, Exposición y Avg.Win en los primeros puestos.

Dicho de otro modo: Si tuviera que seleccionar estrategias para el periodo 1986-2022 y utilizar Fuera de Muestra 2006-2022, empezaría con estrategias basadas en estas métricas.

Resumen

Si observamos detenidamente los distintos escenarios, veremos que algunos factores se repiten.

En otras palabras, filtrar las estrategias por su exposición, Avg. Win, y el beneficio neto anual puede ser un buen comienzo al elegir una estrategia de evaluación.

Observemos también que algunos factores tradicionales como el Ratio de Sharpe, el Ratio RetDD se situaron constantemente por debajo en nuestro análisis. Este análisis puede realizarse para cualquier mercado y cualquier horizonte temporal.

Usando StrategyQuantX es posible recoger datos y en un entorno externo evaluarlos. He utilizado python pero puede utilizar excel o cualquier otra cosa.

Es una versión muy simplificada de lo que yo uso en realidad, pero es un buen comienzo para su propia investigación. Con StrategyQuantX es posible recopilar una enorme cantidad de datos utilizando proyectos personalizados exportando datos de una base de datos y depende de ti cómo utilices esta herramienta.

 

Suscríbase a
Notificar a
2 Comentarios
Más antiguo
Más reciente Más votados
Feedbacks de Inline
Ver todos los comentarios
TesCZ
TesCZ
7. 4. 2022 12:30 pm

gracias por el artículo

Emmanuel
11. 4. 2022 6:04 pm

¡¡¡¡Muchas gracias por este artículo !!!!

Seguir leyendo