Testy trwałości systemów transakcyjnych, część 2

Kontynuujmy zatem zaczęty w poprzednim wpisie wątek stabilności testowych wyników mechanicznych systemów tradingowych.

 

TEST 2.  PRZEWAGA W DZIAŁANIU

Nazwa nie oddaje dokładnie tego co weryfikuje w kolejnej próbie autor gdyż w zasadzie celem eksperymentu była relacja wyników w teście na nowych danych (out-of-sample) do wyników uzyskanych przy budowie systemu (in-sample).

Warunki brzegowe testu podobne jak poprzednim razem:

– za pomocą programu „Kantu” autor generuje 5 000 systemów transakcyjnych opartych na zależnościach między cenami,

– do tego celu używa dziennych kursów historycznych (OHCL) pary EUR/USD za okres styczeń 1986- sierpień 2012

– zakres danych in-sample (użytych do budowy systemu) obejmował stopniowo od 500 do 5000 dni (co 500)

– zakres danych weryfikacyjnych czyli out-of-sample (nie widzianych przez system przy jego tworzeniu) obejmował stopniowo od 200 do 800 dni

Tym razem zadanie polegało na wykryciu szans uzyskania przez wyprodukowane systemy wyników wyższych na nieznanych im danych niż te wygenerowane przy budowie. Innymi słowy: jaki procent stworzonych systemów jest w stanie uzyskać wyższy wynik na niewidzianych danych niż na tych, do których dopasowano je w procesie konstrukcji.

Miarą w tym wypadku jest zysk na transakcję co pozwala w pewien sposób ujednolicić porównania. Poniższy diagram zaczerpnięty z artykułu pokazuje uzyskane rezultaty:

 Kantu2

Żródło: Currency Trader sierpień 2013

Na skali poziomej mamy jak poprzednio ilość dni użytych w danych in-sample (czyli tych do zbudowania systemu). Do testowania za każdym razem pobierano ich o 500 więcej.

Skala pionowa pokazuje ile procent w każdej kategorii testów na danych out-of-sample (nie widzianych wcześniej) zysk na transakcję był WYŻSZY niż przy budowie systemów.

Poszczególnymi kolorami oznaczono dla orientacji zbiory danych out-of-sample.

I tak np. wskazana przez mnie strzałką kropka oznacza, że spośród 5000 systemów ułożonych na podstawie danych z 500 dni, około 23% z nich uzyskało lepszy wynik przy puszczeniu ich na zbiorze kolejnych 200 dni.

Jak widać po kolorach zależność jest niemal liniowa, rezultaty układają się w pewien wzorzec.

Szybkie wnioski:

1. Im dłuższy okres danych nie widzianych przy budowie a wziętych do weryfikacji systemu (out-of-sample) tym niższy odsetek wyników lepszych niż w procesie konstrukcji. Dlatego kropki granatowe (800 dni) są najniżej, a czerwone (200 dni) najwyżej przez całą szerokość wykresu. Logicznie rzecz analizując należałoby więc przyjąć do wiadomości, że w dłuższych okresach out-of-sample mamy większą szansę wpaść na okresy obsunięcia kapitału (drawdown).

2. To normalne zjawisko, że system puszczony na nowych danych nie osiąga takich wyników jak przy jego produkcji, podczas której każdy rodzaj optymalizacji dopasowuje parametry do tego co było w historii. W rezultacie tylko od 3 do 37% z nich udaje się pobić wyniki uzyskane przy budowie (te procenty wynikają z zakresu widocznego na wykresie powyższym).

3. Im większy zakres danych użytych do budowy systemu tym wyniki testów out-of-sample skupiają się koło siebie (kropki w pionie wzajemnie coraz bliżej). Zmniejsza się tym samym margines potencjalnie błędnych wniosków wyciągniętych z procesu budowy systemów.

4. Ponownie przewaga statystyczna (wartość oczekiwana) systemów wychodzi solidnie dopiero wówczas gdy do obu testów (in-sample i out-of-sample) użyjemy jak najszerszych zakresów danych. Widać to po coraz wyżej położonych kropkach gdy przesuwamy się w prawo po wykresie.

Nadal jednak trzeba mieć z tyłu głowy informację, że w tego rodzaju systemach więcej niż połowie z nich nie udaje się przewyższyć średniej zyskowności na transakcję uzyskanej podczas budowy. I dlatego też zwykle przyjmuje się, że rzeczywisty zysk w realu może być o połowę niższy niż podczas konstrukcji systemu.

CDN

—kat—

[Głosów:4    Średnia:2/5]

13 Komentarzy

  1. pit65

    NO to szybkie podsumowanie:

    1. 50% szans ,że system nie przeżyje out of sample
    2. średnio 20% szans ,że znajdziemy lepszy od in-sample
    3. moje własne obserwacje – 20% szans na taki który nadaje się do produkcji

    Reasumując:
    0,5*0,2*0,2= 0,02 czyli mamy 2 % szans ,że znajdziemy coś na kształt Graala :-), innymi słowy trzeba się napracować bo ze 100 potencjalnych projektów systemowych tylko 2 mają szansę na spełnienie naszych oczekiwań.
    Inaczej:

    Jeżeli nie dotrzemy do tych 2% to mamy z duże szanse ,że trading mechaniczny nas nieusatysfakcjonuje , a z 50% szans ,że polegniemy jeżeli zakończymy pracę jedynie na backtestach.
    No i jak każdy trader wie jak trudno jest wybrać 2 spółki które będą liderować w przyszłośći. Z systemami podobnie 🙂

    Czasami zastanawiam się czy czas poświęcony na te rzeczy nie zrekompensowałby trading manualny, gdzie setupy w tzw. systemie są tylko technicznym wsparciem dla tradera.

  2. pit65

    Jeszcze uwaga do powyższego dla kupujących sygnały czy systemy transakcyjne z krótkim okresem stażu /historii/.
    Niech się zastanowią nad tymi 2% bo nawet ze względu na ten staż te 2% to jest baaaaaaaaardzo optymistyczna szansa ,że pieniądze wydane by łatwo zarabiać bardzo łatwo i na prawie 100% stracić.

  3. Kornik

    Autor krąży po kantu’ach tematu, a problem jest konkretny – przesiadka na W30, a łódki projektowane na W20.

    Ile zarobimy, tośmy się już dowiedzieli – po zmianach wejdziemy w hiperprzestrzeń zysków i powszechnej szczęśliwości.

    A ja mam proste pytanie, bo nie jestem hazardzistą, który widzi tylko górę zysków – pytam się, ile mnie to szczęście będzie kosztowało?

    ***

    @Pit

    “Czasem zastanawiam się”

    To jest właśnie ta wyższa szkoła jazdy, o której pisze – taktyka i strategia, czyli podział kompetencji – podział “łańcucha decyzyjnego” i wydzielenie w nim “obszarów kompetencyjnych” – na takie, gdzie lepiej radzi sobie maszyna, oraz takie, gdzie lepiej radzi sobie człowiek.

    Od kilku lat próbuję pewne rzeczy zaimplementować, ale za głupi jestem na to i wciąż szukam własciwych rozwiązań.

  4. deli deli

    Konieczna wydaje mi się prognoza biokosmiczna w sekwencjach 1,3 5… – uzupełnienie mechanicznego.

    Kornik i Sześćdziesiąty Piąty za jednym dotknięciem w chmurze – wielka przyjemność i nagroda. Pozdrawiam.

  5. pit65

    @KOrnik
    Ale nawet kantu rzuca światło na kant jakim podlegać będa mechanicy- minimalne in-sample , które zaczynac się będzie od 0.
    Pytanie do kantu o szanse przeżycia co wykresik troche przybliża 😉

    “po zmianach wejdziemy w hiperprzestrzeń zysków i powszechnej szczęśliwości”

    Jak to GZalewski raczyłbył wcześniej skomentować “przyjdzie walec i wyrówna” tfu… “przyjdzie hossa i wszyscy zapomną” 😉

    @Deli @kornik

    “uzupełnienie mechanicznego” “podział kompetencji”

    Problem w tym ,żeby to połączyć trzeba pewnie zrezygnowac z najlepszych części każdego , aby uzyskac efekt synergii , a nie wzajemnego odpychania czyli włażenia we wzajemne obszary kompetencyjne co zawsze skutkuje niewypałem uszczuplającym depo.

    Inna rzecz ,że manualnie ze względu na dość lużne kryteria w stosunku do mechaniki masz większe szanse adopcji od zaraz na łódce W30.

  6. Kornik

    “kantu rzuca światło”

    Tak jest, i dlatego gadka o “Kantu”, to jest troszkę odchodzenie od tematu, chyba że szanowny Autor ma już dostęp do danych W30, np. zmajstrował w garażu gwiezdne wrota, był gdzie trza, dysponuje paczuszką i się z namy wszystkimi podzieli. Jeśli tak, to ja poproszę 5000 na wynos, ale jak ma pińcset na miejscu, to też nie pogardzę. 🙂

    Deli, pozdro.

  7. Kornik

    “Problem w tym ,żeby to połączyć trzeba pewnie zrezygnowac z najlepszych części każdego , aby uzyskac efekt synergii , a nie wzajemnego odpychania czyli włażenia we wzajemne obszary kompetencyjne co zawsze skutkuje niewypałem uszczuplającym depo.”

    Ciekawa uwaga; wynotowane.

    “Inna rzecz ,że manualnie ze względu na dość lużne kryteria w stosunku do mechaniki masz większe szanse adopcji od zaraz na łódce W30.”

    Zgadzam się, tak więc na nowym akwenie W30, trza będzie na jakiś czas zapomnieć o żaglach i popracowac trochę wiosłami. I to mnie denerwuje, bo nie po to inwestowałem tyle czasu, żeby teraz wiosłami machać. 🙂

  8. Deo Gratias

    Małe pytanie off-topic. Skąd najlepiej brać do Excela dane (historyczne ceny) spółek do różnych testów? Chodzi mi o dane rzeczywiste (a nie pozbawione dywidend jak to jest na stooq), np. porównanie ceny spółki rok po roku (np. 2007.01.01, 2008.01.01, 2009.01.01,…) – dla całego WIG20 oraz całego WIG. Są gdzieś dane TXT? Bo z formatu MetaStocka z bossa.pl to raczej sam nie przekonwertuję.

    1. trystero

      @ Deo Gratias

      Hm, Bossa ma przecież dane w formacie tekstowym.

    2. astanczak

      W zakładce pliki z danymi są bazy w txt.

      https://blogi.bossa.pl/wp-content/uploads/2013/08/dane.gif

  9. Deo Gratias

    @trystero, @astanczak
    Wielkie dzięki, zaćmienie umysłu na mnie padło 🙁

  10. jula66

    Ja już zarobiłam na nowego merola, jak u Was Chłopcy;)

  11. lesserwisser

    @ jula66

    “Ja już zarobiłam na nowego merola, jak u Was Chłopcy;)”

    A chłopcy zaroboli już na proce, bo jak mówią rynek oddziela facetów od chłopców, a chłopców rozdziela od pieniędzy.

    Najwidoczniej kasę tych chłopców przejmują dziś dziewczyny, których najlepszym przyjacielem jest merol. 🙂

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Proszę podać wartość CAPTCHA: *