O que aprendemos ao analisar 1,2 milhões de estratégias de FX - Parte 4: Seleção de características

No episódio de hoje, nos baseamos nas conclusões das partes anteriores, nas quais tentamos identificar e medir os fatores que podem afetar o verdadeiro desempenho fora da amostra das estratégias. ( WFOS )

Toda esta série é o resultado de pesquisas realizadas em 2019/2020 que focaram tematicamente a metodologia utilizada para avaliar e selecionar estratégias geradas em StrategyQuant

O primeira parte foi dedicada ao impacto da complexidade da estratégia e do número de negócios no desempenho potencial na faixa de segunda parte à sensibilidade da estratégia a spreads mais altos.

O terceira parte lidou com a influência dos indicadores tradicionais de classificação no desempenho das estratégias no verdadeiro fora da amostra ( WFOS ).

Na parte de hoje, aplicaremos técnicas simples de seleção de características e tentaremos avaliar os fatores que influenciam o desempenho em True fora do período da amostra ( WFOS ). Os métodos usados para esta análise podem ser encontrados em https://machinelearningmastery.com/ ou no excelente livro Data Preparation for Machine Learning.

O que eu quero dizer com características? Imaginemos que estamos gerando estratégias. Vamos definir o período de dados dentro da amostra e o período de dados fora da amostra. O período fora da amostra é aquele que não utilizamos para classificação ou seleção de estratégias na geração de estratégias.

Por características, entendemos as métricas qualitativas das estratégias em seu período fora da amostra. A seleção de estratégias a partir dos dados da amostra não é muito útil quando usada geneticamente devido ao excesso de adaptação. E seus efeitos são estudados em uma amostra de dados que não utilizamos de forma alguma em seu desenvolvimento.

O objetivo é identificar tais fatores em um período fora da amostra que possa ter um hipotético valor preditivo para a estratégia do fator de lucro no período verdadeiro fora da amostra. (WFOS )

Usando o método simples, mediremos a correlação entre os indicadores no período fora da amostra e o fator de lucro no verdadeiro período fora da amostra. (WFOS )

Há várias opções ao escolher um coeficiente de correlação. Cada uma tem suas próprias vantagens e desvantagens. Em nosso caso, o fator decisivo será o quão robusto é para os que se destacam. Você pode encontrar muitas fontes e opiniões na Internet, nossa escolha recai sobre o coeficiente de correlação da Spearman. Você pode encontrar mais sobre este tópico no Stackexchange neste fórum

Na análise a seguir, analisaremos a estratégia de acordo com a seleção e as conclusões que fizemos nas partes anteriores.

Vamos simular 4 cenários:

  1. Conjunto de dados sem nenhuma seleção ( todas as estratégias )
  2. Conjunto de dados com estratégias com complexidade de 4 a 6
  3. Conjunto de dados com estratégias com complexidade 4 a 6 e com um número médio de negócios por ano no intervalo de 30 a 80
  4. Conjunto de dados com estratégias com complexidade 4-6 e com um número médio de operações por ano no intervalo 30 a 80 e taxa de spread superior a 0,8

1. Cenário - Conjunto de dados sem nenhuma seleção ( todas as estratégias )

Neste exemplo, não utilizamos a seleção. Em outras palavras, tomamos o conjunto de dados brutos e analisamos a correlação entre a métrica da estratégia fora da amostra e o fator de lucro no verdadeiro período fora da amostra ( WFOS ).

Nas colunas acima, listamos:

  • Fator é o nome da métrica da estratégia no período Fora da Amostra.
  • Coeficiente de correlação absoluto
  • Coeficiente de Correlação

Quanto mais alto for o coeficiente de correlação absoluto de Spearman, mais forte será a relação entre o fator e o fator de lucro em True fora do período amostral.

Vale a pena prestar atenção às métricas estratégicas que vêm em primeiro lugar - Exposição Em outras palavras, quanto mais tempo as estratégias estiverem no mercado, maior será provavelmente o fator de lucro em verdadeiro fora da amostra.

Outro fator que merece atenção e que vem em primeiro lugar é o significado estatístico, que é a relação entre o número de negócios em uma estratégia e sua complexidade. Em outras palavras, quanto mais o comércio de uma estratégia e quanto menos completa ela for, maior será o significado estatístico.

2. Cenário - Estratégias com complexidade 4 a 6

Neste conjunto de dados, considerarei apenas estratégias com complexidade de 3 a 6. Considero a complexidade como um fator chave. Uma boa citação que capta a essência desta idéia é

"Se o algoritmo for muito complexo ou flexível (por exemplo, tem muitas características de entrada ou não está devidamente regularizado), ele pode acabar "memorizando o ruído" em vez de encontrar o sinal".

Fonte: https://elitedatascience.com/overfitting-in-machine-learning#:~:text=Noise%20interferes%20with%20signal.&text=If%20the%20algorithm%20is%20too,predictions%20based%20on%20that%20noise.

3. Cenário - Conjunto de estratégias com complexidade 4 a 6 a com média de negócios por ano 30 a 80

Trabalhamos em condições de possível sobreajustamento. Uma das abordagens básicas para combater este problema é aumentar o número de observações, ou seja, o número de negócios, além de reduzir a complexidade. Mais uma vez, o raciocínio sobre o número de ofícios é baseado na literatura sobre aprendizagem de máquinas, mas também na excelente série de Martin Tinsley, que pode ser encontrada no youtube sob o título Backtesting & Optimization Algorithmic para Alphas.

4. Cenário - Conjunto de estratégias com complexidade 4 a 6 a com média de operações por ano 30 a 80 e taxa de spread > 0,8

Na tabela acima vemos % Annual Return, Exposure, e Avg.Win nos primeiros lugares.

Em outras palavras: Se eu selecionasse estratégias para o período 1986-2022 e utilizasse o Out of Sample 2006-2022, eu começaria com estratégias baseadas nessas métricas.

Sumário

Se observarmos cuidadosamente os diferentes cenários, podemos ver que alguns fatores se repetem.

Em outras palavras, estratégias de filtragem por sua exposição, Avg. Win, e o lucro líquido anual pode ser um bom começo ao escolher uma estratégia de avaliação.

Observemos também que alguns fatores tradicionais como a razão Sharpe Ratio, a razão RetDD, estão sempre mais baixos em nossa análise. Esta análise pode ser feita para qualquer mercado e qualquer período de tempo.

Usando StrategyQuantX é possível coletar dados e em um ambiente externo para avaliá-los. Eu usei python, mas você pode usar excel ou qualquer outra coisa.

É uma versão muito simplificada do que eu realmente uso, mas é um bom começo para sua própria pesquisa. Com StrategyQuantX é possível coletar uma enorme quantidade de dados usando projetos personalizados exportando dados de um banco de dados e depende de você como você usa esta ferramenta.

 

Assine
Notificação de
2 Comentários
Mais antigo
Novidades Mais Votados
Feedbacks em linha
Ver todos os comentários
TesCZ
TesCZ
7. 4. 2022 12:30 pm

obrigado pelo artigo

Emmanuel
11. 4. 2022 6:04 pm

Sim, muito obrigado por este artigo !!!!

Continuar lendo