
StrategyQuant YouTube Ahora en alemán - Comience su viaje hacia el trading algorítmico
Nuestro nuevo canal de YouTube en alemán ya está disponible y ha sido diseñado especialmente para usted. 👉 ¿Por qué debería echarle un vistazo?
Přejít k obsahu | Přejít k hlavnímu menu | Přejít k vyhledávání
Las pruebas de robustez son un componente importante de las herramientas StrategyQuant X que ayudan a los usuarios a evaluar la estabilidad, fiabilidad y adaptabilidad de sus estrategias de negociación en distintas condiciones de mercado e incertidumbres potenciales. .
El principal objetivo de las pruebas de robustez es evaluar el rendimiento de una estrategia de negociación en diferentes condiciones de mercado, escenarios y ajustes de parámetros.
StrategyQuant contiene varias herramientas específicas para evaluar la solidez de las estrategias. En este artículo analizamos la eficacia de las herramientas seleccionadas. Esta evaluación garantiza que la estrategia no esté sobreoptimizada para unos datos determinados y que pueda adaptarse a las condiciones cambiantes del mercado, aumentando así la probabilidad de éxito de la negociación.
Un ejemplo de estrategia robusta y no robusta
Podemos ver que la estrategia de la izquierda también funciona bien en esta parte, mientras que la estrategia de la derecha falla en los datos desconocidos, ya que es casi seguro que se ajusten a la curva.jasne
El objetivo del estudio es examinar la eficacia de varios tipos de pruebas de robustez en StrategyQuant X in.
Los resultados de este estudio deben abordar los siguientes puntos clave:
En conclusión, el estudio debe evaluar a fondo la eficacia de los distintos tipos de pruebas de robustez en StrategyQuant X y proporcionar información sobre sus puntos fuertes y débiles y sus aplicaciones prácticas.
Los resultados ayudarán a los operadores e inversores a comprender mejor el valor de cada prueba y a tomar decisiones informadas a la hora de desarrollar y validar sus operaciones.
El resultado del análisis es que la La prueba más eficaz de la solidez de la estrategia en las condiciones elegidas parece consistir en probarla en varios mercados.. Al probar la estrategia en varios mercados, nos referimos a seleccionar estrategias según los valores medios más altos de las métricas de estrategia dadas en varios mercados. De media, mejoran el rendimiento de la estrategia en 14%. En StrategyQuant es muy fácil comprobar la solidez de una estrategia en varios mercados utilizando el método Comprobación cruzada de Mercados Adicionales.
La segunda mejor comprobación de robustez es la aleatorización Monte Carlo de los datos históricos. En las páginas siguientes puede leer los resultados detallados de nuestro análisis y la metodología que hemos utilizado en el mismo. El análisis está pensado para ser útil a los usuarios del programa StrategyQuant X.
Puede obtener más información sobre todas las pruebas de robustez de Strategy Quant X en nuestra documentación
En el análisis, utilizamos las siguientes configuraciones y tipos de pruebas de robustez:
Tenga en cuenta que este resultado sólo es válido para la configuración de compilación y prueba que puede ver a continuación: forex, marco temporal 4H, conjunto de símbolos y configuración de compilación exacta.
Es un trabajo para el futuro -que planeamos hacer como continuación de esta serie- verificar si este resultado se mantiene también para otros activos, otros plazos y otras configuraciones de construcción.
En la siguiente parte, he preparado para ti un estudio en el que he trabajado durante 2 meses. Desarrollé docenas de páginas de código Python para ello. Es un gran proyecto en el que hay que trabajar con enormes conjuntos de datos, realizar operaciones numéricas, analizar los datos e interpretarlos después. El objetivo era averiguar cómo una determinada prueba de robustez puede ayudar a seleccionar estrategias que tengan más probabilidades de producir resultados robustos en el futuro. El documento sigue la lógica del procedimiento en el análisis.
En primer lugar, cargamos 5 conjuntos de datos con clasificaciones generales de estrategias de palo para cada prueba de robustez. Por conjunto de datos entendemos 100 000 estrategias seleccionadas a partir de una clasificación muy general.
Repetiré este procedimiento en diferentes periodos de tiempo
Cada conjunto de datos tenía un ajuste de IS = 30% y OOS 70%, el verdadero fuera de muestra era de 2 años.
Ejemplo en la imagen de abajo: El conjunto de datos 2003-2017 finaliza el 31.12.2016 y tiene un período fuera de muestra real de 2 años, del 1.1.2017 al 31.12.2018.
En otras palabras, simularemos la generación de estrategias con el final de la generación en 2017, 2018, 2019, 2020, 2021. Después de cada ventana temporal, las estrategias seguirán en el llamado verdadero fuera de muestra. ( + 2 años )
En primer lugar, generamos conjuntos de datos sin pruebas de robustez y, a continuación, aplicamos a cada conjunto de datos pruebas seleccionadas sobre periodos fuera de la muestra.
Para cada periodo fuera de muestra, selecciono las estrategias en el top 1% de valores con la métrica de estrategia de prueba de robustez dada , encuentro el rendimiento de estas estrategias en el periodo fuera de muestra, y comparo su rendimiento con todas las estrategias en el periodo fuera de muestra. Obtengo los datos para cada período de tiempo y luego sé cómo una determinada comprobación de robustez ayudaría en promedio
Al final del artículo encontrará una tabla en la que describo qué pruebas funcionan mejor... y viceversa, lo cual no he confirmado en absoluto. Puede utilizar esta tabla cuando cree su propia estrategia. Las pruebas que han sido confirmadas definitivamente deben ser incluidas en su flujo de trabajo.
Empecemos...
En primer lugar, generamos 5 conjuntos de datos. Por conjunto de datos entendemos 100 000 estrategias seleccionadas a partir de una clasificación muy general.
Filtré las estrategias generadas por SQX en función de estos criterios básicos:
Repetiré este procedimiento en diferentes periodos de tiempo
Cada conjunto de datos tenía un ajuste de IS = 30% y OOS 70%, el verdadero fuera de muestra era de 2 años.
He generado un tipo simple de estrategias para un marco de tiempo de 4 horas. La estrategia sólo podía entrar por Enter At market. Establecí tanto el stop loss como el profit target en base a ATR. Utilicé sólo indicadores integrados y sólo condiciones. Estrategias estrategias podrían tener un máximo de dos condiciones de entrada..
Elegimos el marco temporal de 4 horas, pero mi experiencia es que los marcos temporales, los mercados y las configuraciones individuales pueden tener su idiosincrasia, por lo que no es posible extraer conclusiones generales tras un único análisis. El objetivo del estudio era mostrar tendencias al utilizar pruebas de robustez con el fin de preparar el flujo de trabajo para análisis posteriores y plantear cuestiones para el debate.
Crear y limpiar un conjunto de datos tan grande (5* 100 000) requiere mucho tiempo y esfuerzo. Creé las estrategias en 2 estaciones de trabajo AMD Threadripper 2950 con 32 procesadores. Tardé unos 12 días en crear la estrategia con un proyecto personalizado.
Spreads, Swaps se fijan según el broker Darwinex, todos los spreads se incrementan en 0,5 pip o se redondean hacia arriba. Por cada operación se cobra una comisión de 2,2 USD.
Veamos las características de cada uno de los conjuntos de datos.En la siguiente figura, podemos ver las características cualitativas de cada conjunto de datos de estrategias creadas para un periodo determinado.
En el columna verde tenemos los valores de las métricas de estrategia obtenidas en el periodo fuera de muestra
En la columna azul tenemos los valores de las estrategias en el verdadero fuera de muestra periodo
Como podemos ver en el gráfico anterior, las estrategias pierden su rendimiento en los verdaderos periodos fuera de muestra. Observemos la inestabilidad del rendimiento de las estrategias en sus verdaderos periodos fuera de la muestra.
Hay años en los que la media del Factor Profit de las estrategias en verdadero fuera de muestra está por encima de 1 y hay años ( 2018 / 2019 / 2020 ) por debajo de 1. Es decir , las estrategias de media están perdiendo . Del mismo modo valores inestables y bajos se observan en el caso de Avg. Trade y Ret/DD Ratio.
Payout Ratio , Avg. Horas negociadas y Promedio de operaciones al mes son relativamente similares en la muestra y en la muestra real. Operaciones al mes son relativamente similares fuera y dentro de la muestra.
En la figura siguiente, vemos en el recuadro verde el cambio absoluto ( delta ) entre el fuera de muestra y el verdadero fuera de muestra de estas métricas de estrategia:
En la parte izquierda (marco verde) vemos el delta (diferencia) de las métricas seleccionadas entre su fuera de muestra y su verdadero fuera de muestra.
En la parte derecha (marco azul) podemos ver el coeficiente de correlación de Sheppard en el caso de Profit Factor, Payout Ratio, Avg.Trade, Ret/ DD Ratio entre los valores de estos indicadores en fuera de muestra y en verdadero fuera de muestra. Podemos ver que las correlaciones para Profit Factor, Avg. Trade, Ret/ DD Ratio son bastante bajas e inestables. En otras palabras, los valores bajos indican un valor predictivo bajo entre fuera de la muestra y fuera de la muestra real.
Los análisis de otros conjuntos de datos y otros tipos de estrategias muestran un rendimiento diferente de las estrategias con y sin bloques de acción del precio. Ahora dividiré el conjunto de datos de estrategias 5*100 000 en conjuntos de datos
Echemos otro vistazo al conjunto de datos base particionado
En las imágenes de abajo podemos ver las mismas estadísticas que arriba pero mostradas para estrategias en las que puede haber bloques indicador + acción del precio. La estructura de los datos mostrados es exactamente la misma que en el análisis del conjunto de datos anterior.
En las siguientes imágenes podemos ver las características básicas del conjunto de datos Sólo con bloques de acción de precios.
Mi hipótesis se basa en un análisis similar sobre índices y parte del supuesto de que las estrategias con SÓLO bloques precio-acción obtienen mejores resultados tanto fuera de muestra como fuera de muestra real. Resulta que en este análisis no se cumplió la hipótesis y se mantiene el mejor rendimiento de las estrategias con indicadores y bloques precio-acción. Obsérvese que para fuera de muestra, el rendimiento es mejor para las estrategias con SÓLO bloques de acción sobre el precio, y para verdadero fuera de muestra, el rendimiento es peor para las estrategias con sólo bloques de acción sobre el precio. Aunque podemos encontrar algunas diferencias, no son muy significativas ni consistentes.
El conjunto de datos de referencia consta de estrategias que cumplen los requisitos básicos de fuera de muestra, y no realizamos pruebas de robustez. La siguiente pregunta es si podemos lograr resultados estadísticamente mejores entre los verdaderos fuera de muestra con las estrategias seleccionadas en comparación con el conjunto de datos de referencia de verdaderos fuera de muestra (sin pruebas de robustez, sólo con las clasificaciones básicas mencionadas anteriormente) realizando las pruebas de robustez seleccionadas.
El proceso de análisis
Nota. No excluí los valores atípicos del análisis.
Supervisaremos el rendimiento de las pruebas de robustez en estas métricas:
Analizaremos las siguientes pruebas de robustez
Nota: Monte Carlo Randomize Strategy Parameters sólo se aplicará a estrategias con indicadores y bloques de acción de precios. No aplicamos esta prueba a estrategias con sólo bloques de acción de precios porque aleatorizamos SÓLO los periodos de los indicadores dados
Veamos brevemente cómo hemos establecido las pruebas de robustez individuales.
Ratio de métricas OOS/IS
La relación entre las métricas fuera de la muestra y las métricas dentro de la muestra.
Media de las métricas de los mercados adicionales
Realizamos pruebas retrospectivas de los mercados utilizando la parte de los datos fuera de muestra para cada conjunto de datos. Muestra el valor medio de una métrica determinada a partir de pruebas retrospectivas en todos los mercados adicionales.
Puede descargar estos fragmentos de nuestro servidor de intercambio aquí.
Hemos probado estos mercados:
Métodos Monte Carlo Retest: Aleatorizar los datos históricos de OHLC
Hemos utilizado Randomize OHLC history data , que se añadió en la versión 136. La configuración se puede ver en la imagen de abajo.
Métodos Monte Carlo Retest: Aleatorizar parámetros de estrategia - Períodos
Para la prueba de parámetros de estrategia aleatorios utilicé un fragmento modificado en el que sólo se aleatorizaron los periodos de los parámetros.
Monte Carlo Aleatorizar Operaciones Manipulación : Orden de Operaciones Aleatorias
En la siguiente figura vemos las métricas de robustez ordenadas por Factor Avg. Profit Factor in true out of sample vs. Avg.Profit Factor All in true out of sample en el conjunto de datos con no se ha aplicado ninguna prueba de robustez.
En las columnas azul y blanca vemos la comparación en cada periodo en el que generamos el conjunto de datos.
Nota explicativa del cuadro
Cómo evaluar la tabla anterior
La primera columna del marco azul de la izquierda muestra el año 2017. Profit Factor Avg. representa el factor de beneficio medio de 1% (percentil 99) de las estrategias seleccionadas tras la prueba de robustez. Profit Factor All Avg. representa el factor de beneficio medio de todas las estrategias en un determinado verdadero fuera de muestra.
Así pues, seleccionamos las estrategias según la prueba de robustez en el fuera de muestra, pero comparamos los resultados de estas estrategias en el verdadero fuera de muestra. El delta es el cambio absoluto en los valores medios.
En los recuadros azules encontrará todos los periodos de tiempo (conjuntos de datos) en los que hemos realizado el estudio, y en la última columna roja verá el cambio porcentual de la media de las estrategias seleccionadas en función de la prueba de robustez y de todo el conjunto de datos.
Entre las tres métricas examinadas, el rendimiento multimercado de las estrategias ocupa el primer lugar.
La cuarta prueba de robustez eficiente es la selección de estrategias 1% según MCRHD: Avg. Trade (MC retest, Conf. level 95%), que aumenta el rendimiento en 7,8% de media.
Los otros dos son 1. TV: Avg. Trade (OOS), 1. TV: Profit Factor (OOS). Si seleccionáramos 1% de las estratagemas según estas métricas de estrategia, el factor de beneficio en OOS aumentaría unos 6% de media. Las métricas OOS/IS también funcionan bastante bien.
Una vez más, aplico pruebas de robustez SÓLO a las estrategias filtradas en el proceso de construcción utilizando los siguientes criterios.
Al tratarse de estrategias en las que no hemos aplicado un filtrado avanzado, no hemos simulado un flujo de trabajo fundamental. Por tanto, tómense los resultados como una indicación de la tendencia.
La mejora del rendimiento de las métricas básicas en OOS también se debe a que al crear los conjuntos de datos sólo utilizamos clasificaciones básicas. En otras palabras, los criterios que utilizamos se fijaron para generar el mayor número de estrategias rentables lo más rápidamente posible. En la próxima parte, abriremos la posibilidad de simular las clasificaciones actuales y aplicar pruebas de robustez a estas estrategias.
En la siguiente imagen adjunto una versión simplificada del gráfico anterior.
Tipo de prueba de robustez | Mejora media % del factor Profit en el período Fuera de Muestreo Verdadero frente al factor Profit en el período Fuera de Muestreo |
Rendimiento multimercado | 12.11 |
Métodos Monte Carlo Retest: Aleatorizar los datos históricos de OHLC | 4.71 |
Proporción de métricas fuera de la muestra frente a métricas dentro de la muestra | 4.61 |
Métricas fuera de la muestra (Media del factor Profit, Avg.Trade, Factor Profit ) | 4.61 |
Relación de los métodos Monte Carlo Retest: Datos históricos OHLC aleatorios frente a métricas fuera de muestra | 3.59 |
Monte Carlo Aleatorizar operaciones Manipulación : Orden de Operaciones Aleatorias | 3.44 |
Ratio de Manipulación de Operaciones Aleatorias Monte Carlo : Orden de Operaciones Aleatorias vs. Métricas Fuera de Muestra | 2.13 |
Métodos Monte Carlo Retest: Aleatorizar parámetros de estrategia - Períodos | -6.06 |
Relación entre los parámetros de la estrategia de aleatorización de Monte Carlo y las métricas fuera de muestra | -9.09 |
En la figura anterior, vemos la mejora media del factor prfot para un determinado tipo de robustez. El resultado es la primera de las tres métricas utilizadas para evaluar las pruebas de robustez (Promedio del factor Profit, Avg.Trade, Profit Factor )
Rendimiento multimercado ( OOS ) daría una mejora media de 12% en el factor de beneficio de la estrategia en el verdadero periodo fuera de muestra. El segundo mejor prueba de robustez es la Método Monte Carlo Retest: Aleatorizar los datos históricos de OHLC se traduciría, por término medio, en una mejora de 4,7% del factor de beneficio de la estrategia en su verdadero periodo fuera de la muestra.
En el análisis anterior, utilizamos métricas básicas para la selección de estrategias. ¿Existen métricas de estrategia con mayor valor predictivo? Este problema puede aclararse mediante diferentes métodos. Aprendamos algunos métodos de aprendizaje automático con problemas de extracción de características. La lógica básica es que medimos la relación entre las métricas de estrategia en fuera de muestra y la relación entre la dependencia de variables en verdadero fuera de muestra.
Coeficiente máximo de información
Se trata de un método no paramétrico para evaluar las relaciones lineales y no lineales entre variables. En el gráfico siguiente, vemos la relación entre las variables seleccionadas (columna de la izquierda) de la muestra fuera de muestra y las 1TP9Factor de ajuste en la muestra real en cada uno de los conjuntos de datos. Se trata de cálculos muy preliminares, pero obsérvese que ni el factor Profit, ni Avg.Trade ni el ratio Ret/ DD se encuentran en las primeras posiciones. A partir de esta información, podemos concluir que hay mejores métricas de estrategia para predecir el rendimiento futuro de las startups que no están en la muestra.
Ampliaremos el análisis dado en varios pasos
¿Hacia dónde nos dirigiremos en posteriores análisis tras la publicación de la versión final 137?
En la parte introductoria, sugerimos que la prueba más eficaz del marco temporal de 4 horas en EURUSD es probar una estrategia multimercado: la solidez multimercado. Hemos descubierto que algunas métricas de la estrategia pueden tener un valor predictivo mayor que otras. Hemos descubierto que aleatorizar los datos históricos también puede dar lugar a mejoras interesantes.
Volveré sobre este conjunto de datos en un artículo en octubre, donde intentaremos aplicar algunas de las mejoras mencionadas al final del artículo. A continuación, realizaremos un conjunto de datos similar en noviembre y diciembre con las mejoras y nos centraremos en las estrategias y el marco temporal horario de los índices.
Todas las sugerencias y críticas constructivas son bienvenidas.
Nuestro nuevo canal de YouTube en alemán ya está disponible y ha sido diseñado especialmente para usted. 👉 ¿Por qué debería echarle un vistazo?
¿Quiere subir el nivel de sus operaciones? Estos indicadores se ajustan a los cambios de humor del mercado como un profesional. Por qué los indicadores adaptativos cambian las reglas del juego La mayoría de los indicadores de la vieja escuela tienen un gran defecto: ...
¿Alguna vez has deseado poder construir estrategias de negociación sin esfuerzo a través de plataformas como MetaTrader 4, MT5, TradeStation, o MultiCharts? Nuestro último vídeo desvela la nueva actualización del Asistente AI, ahora disponible para todos los motores ...
Interesante artículo. Muchas gracias. Pregunta, ¿alguna idea de utilizar R-cuadrado como una función de fitness?
Gracias, señor,
Rojo
Hola Redlock. En esta investigación no encontré una relación significativa entre R al cuadrado y el verdadero rendimiento fuera de la muestra.
"Excelente artículo. Como siempre. ¿Utilizó algún criterio en la selección de divisas? ¿Alguna correlación específica?"
Gracias.
Hola Diego. Elegí basándome en la liquidez, pero la próxima vez elegiré los mercados basándome en la correlación. No fue una elección ideal.
Impresionante artículo, muchas gracias.
Pregunta, ¿podemos incluir también el efecto del Edge Ratio en la prueba de robustez del mercado de divisas?
Hola, Stu. ¿Tienes una idea concreta de cómo implementar la prueba de robustez Edge Ratio?
¿Qué le parece utilizar el mismo enfoque que se describe en este blog?
https://strategyquant.com/blog/edge-ratio-in-strategyquant-x
Este tipo de trabajo está muy bien, al final queremos saber qué pruebas dan verdadero valor en el trading en vivo porque si las ejecutas todas es mucho tiempo y apenas sale ninguna estrategia.
Mikael
Gracias Mikael, sí, estoy de acuerdo.
Hola,¿Qué rango de correlación de pares de divisas debe utilizarse al elegir un Multi Market? ¿Deberían utilizarse pares de divisas con una correlación cercana a cero para las pruebas de solidez?
Personalmente no me gusta el Retest de Mercado Adicional porque la selección de mercado es muy subjetiva. Usted puede argumentar que sus estrategias son robustas, por lo que pueden sobrevivir en su propio mercado generado y romper incluso en 4 otros. Simplemente significa que la estrategia aprobada es curva ajustada a sus datos IST y apenas sobrevivir en otros 4. Nada más y nada menos. Hace un tiempo, realicé una investigación sobre estrategias de entrenamiento de Retest de Mercado Adicional en GBPJPY H1 y luego retestándolas en M30 y H4 con el requisito de filtro de factor de beneficio >1.1 similar a los proyectos personalizados por defecto de SQX. Estas estrategias... Leer más "