Quel est le lien entre in sample et out of sample

il y a 5 ans #237775

Le fait que je modifie ou non les proportions a-t-il une incidence ?

La stratégie est-elle fondée sur IN SAMPLE ou IS+OOS ?

0

il y a 5 ans #237777

Bonjour Jerry, les stratégies sont construites sur IN SAMPLE. L'IS devrait donc être plus grand que l'OOS.

DP

0

il y a 5 ans #237781

Je ne suis pas d'accord avec cette formule simple - IS devrait être plus grand que OOS. A mon avis, il vaut mieux construire des stratégies sur un petit nombre de données, faire des choix à travers l'ensemble du comportement des données (haute volatilité, basse volatilité, chop) et générer seulement sur quelques mois (années) et faire en sorte que tout le reste soit OOS.

De cette manière, vous obtiendrez un plus grand nombre de chaînes différentes, qui peuvent être prêtes pour la plupart des états d'un marché.

Vous voulez devenir un algotrader rentable ? Nous avons commencé à utiliser le logiciel StrateQuant début 2014. Nous avons maintenant un très grand savoir-faire pour construire des EAs pour tous les types de marchés possibles. Nous partageons ce savoir-faire, les applications, les outils et toutes les stratégies finales avec de vrais traders. Si vous souhaitez nous rejoindre, remplissez le formulaire suivant FORMULAIRE.

0

il y a 5 ans #237800

Je suis d'accord avec hankeys, plus votre SI est petit, moins la stratégie est surajoutée, et plus vous pouvez générer de stratégies en peu de temps. Filtrez en fonction des grandes données, générez en fonction des petites.

0

il y a 5 ans #237807

hankeys a écrit :

Je ne suis pas d'accord avec cette formule simple - IS devrait être plus grand que OOS. A mon avis, il vaut mieux construire des stratégies sur un petit nombre de données, faire des choix à travers l'ensemble du comportement des données (haute volatilité, basse volatilité, chop) et générer seulement sur quelques mois (années) et faire en sorte que tout le reste soit OOS - de cette façon, vous obtiendrez plus de stratégies différentes, qui peuvent être prêtes pour la plupart des états d'un marché.

a écrit Ilya :

Je suis d'accord avec hankeys, plus votre SI est petit, moins la stratégie est surajoutée, et plus vous pouvez générer de stratégies en peu de temps. Filtrez en fonction des grandes données, générez en fonction des petites.

Merci à vous deux, c'est un bon point. Cependant, quel est le comportement de SQX si nous recherchons des stratégies en utilisant la méthode de construction aléatoire ? SQX ne fait pas de différence entre IS et OOS ?

DP

0

il y a 5 ans #237814

Merci à tous

Je sais maintenant que c'est écrit dans le "guide de l'utilisateur" : Dans l'échantillon - il est utilisé pendant l'évolution génétique ; Hors de l'échantillon - cette partie des données est utilisée pour vérifier.

Lorsque je mets IS à 0, il n'y a pas d'évolution, la valeur de la condition physique reste à 0,06. Je suppose que l'évolution consiste à améliorer la valeur d'aptitude de la stratégie.

Je ne suis pas sûr qu'il soit théoriquement correct de générer des stratégies avec de petits IS et de grands OOS.

Je pense que cela ne fait aucune différence que l'overfitting se produise sur IS ou OOS.

Le backtesting n'est-il pas une question d'overfitting ? L'histoire se répétera-t-elle ?

0

il y a 5 ans #237815

Je vais vous donner mon point de vue :

- Tout d'abord, l'évolution génétique consiste à améliorer le niveau d'aptitude d'une stratégie, en essayant de modifier légèrement ses paramètres à chaque exécution, et de voir si elle s'améliore ou non.

- La génération de la stratégie ("formation du modèle") a lieu sur le site de l'entreprise. Dans l'échantillon que l'on utilise l'évolution génétique ou l'évolution aléatoire.

- L'utilisation de périodes hors échantillon a du sens dans les deux types de génération, je vais expliquer pourquoi.

L'évolution génétique

Il s'agit là d'une évidence : une fois que vous avez "recyclé" la même stratégie en la peaufinant et en la permutant jusqu'à ce qu'elle satisfasse vos filtres (ou le minimum d'aptitude), cette stratégie est très probablement sur-équipement sur cet ensemble de données. Il est donc judicieux d'exécuter la stratégie une fois "en dehors de la boîte" sur un ensemble de données précédemment inconnu, afin de s'assurer qu'elle fonctionne bien sans être parfaitement ajustée, réduisant ainsi le risque de surajustement. Cela peut être fait en utilisant le curseur OOS pendant le processus de construction.

- Essentiellement, une stratégie unique peut exécuter 200 fois sur les données du SI jusqu'à ce qu'elles répondent à vos besoins, puis seulement 1 fois sur les données OOS pour s'assurer qu'elles répondent à vos exigences de performance, afin que vous puissiez voir l'avantage de cette période OOS et dans quelle mesure vous réduisez les risques de surajustement.

L'évolution aléatoire

Ici, contrairement à genetic evo, une stratégie unique ne fonctionne qu'une fois sur les données IS, puis une fois sur les données OS, et ensuite vos filtres sont vérifiés. Ainsi, "à l'œil nu", il semble qu'il n'y ait pas de différence entre IS et OOS, puisqu'avant d'atterrir dans votre banque de données, elle balaie l'ensemble de la période combinée.

MAIS, tout d'abord, n'oubliez pas que si une stratégie ne satisfait pas vos besoins en matière d'IS, elle ne sera pas testée sur l'OOS (à moins que vos filtres ne portent que sur l'ensemble des données, et dans ce cas, ce qui précède est vrai, cela signifie essentiellement que l'ensemble des données est IS, que vous les divisiez ou non).

Ici, parce que dans la génération aléatoire, nous obtenons un pourcentage plus faible de stratégies à transmettre à la banque de données (puisque nous jetons au hasard un mélange de paramètres et voyons si cela fonctionne), il s'agit de sa propre sorte d'overfitting, même si nous ne le recyclons pas comme sur l'evo génétique, puisque nous changeons simplement de stratégie en hyperpropulsion, jusqu'à ce qu'elle "s'adapte bien" à notre ensemble de données. Donc ici, ce qui est logique pour nous, c'est d'utiliser un ensemble de données inédites pour OOSqui ne fait pas partie du processus de génération, par exemple les 6 derniers mois ou l'année écoulée, qui ne sera révélée qu'à la stratégie dans le retester. De cette façon, nous sommes plus sûrs que notre stratégie créée au hasard n'est pas "accidentellement" tombée parfaitement sur notre ensemble de données de construction.

Et ce n'est que la partie émergée de l'iceberg pour éviter l'overfitting, les tests de robustesse et le walk-forward sont les véritables MVP pour l'éviter. Je réserve toujours une période de repos au moins pour la construction, et une autre plus récente, totalement inédite, à exécuter sur le retestateur.

Santé

0

Quel est le lien entre l'échantillon et le hors échantillon ?

Produits

Ressources

Entreprise

Suivez-nous