Dostęp do ogromnych zbiorów danych spowodował rozwój przeróżnych technik analitycznych mających na celu poszukiwanie różnego rodzaju wzorców, współzależności czy powiązań i na ich podstawie próby oceny lub prognozowania trendów czy też zachowań. Oczywiście dzięki wykorzystaniu przeróżnych narzędzi statystycznych możemy próbować ocenić, czy istnieją związki przyczynowo-skutkowe w danych zbiorach danych, czy są to wyłącznie przypadkowe (choć atrakcyjnie się prezentujące) korelacje. Od doświadczenia, kompetencji, wnikliwości ale również kreatywności analityka zależy to, czy w danych dostrzeże wartościowe wzory, czy też uzna je za nieprzydatny do niczego szum.

Pozwolę sobie zacytować fragment opracowania profesora Andrzeja Sokołowskiego z Katedry Statystyki na Akademii Ekonomicznej w Krakowie z 2005 roku – Data mining – automat czy metoda naukowa?

Wielu statystyków, głównie tych zajmujących się teorią statystyki zdaje się nie dostrzegać bujnego rozwoju gałęzi zwanej data mining. Niektórzy z nich odnoszą się do data mining z lekceważeniem lub wręcz wrogością, uznając to podejście za „nienaukowe” i podejrzane. […] Typową reakcją obronną było zamknięcie się w wysokiej wieży z kości słoniowej i strzelanie do „przeciwnika” amunicją epitetową w rodzaju: „nienaukowe”, bezzałożeniowe, bez teorii, nieelegenckie, bez dowodów formalnych, prymitywne, nastawione tylko na zastosowania (sic!), itp.

Oczywiście mimo tych zastrzeżeń data mining  się rozwijało w coraz szerszym zakresie, tym bardziej im więcej gromadzono danych na przykład, na temat naszych zachowań w sieci. Oczywiście wzorce wykrywane w ten sposób nie są doskonałe i idealne. Naturalnie, że czasami zwodzą analityków na manowce, niemniej w ogromnej części przypadków pozwalają opracować typowe zachowania konsumentów (które bywają zmienne), wspomagają prognozowanie pogody, przewidywać mecze baseballu, czy nawet dobierać zawodników do drużyn, nie na podstawie oceny ich wyglądu, przeczucia i intuicji, tylko danych dotyczących ich aktywności (polecam Moneyball Michaela Lewisa).

W swojej pracy prof. Andrzej Sokołowski przypomina, że klasyczne badanie statystyczne funkcjonowało według modelu:

Problem -> Model -> Dane -> Analiza -> Wynik/Interpretacja

Krótko mówiąc, najpierw budowaliśmy na podstawie naszych obserwacji, intuicji, przekonań pewien model, zaś później sprawdzaliśmy, czy dane ten model potwierdzają.

Tymczasem od momentu ukazania się w 1977 roku książki Exploratory Data Analysis Johna Turkeya podejście to zmieniło kolejność czynników.

Problem -> Dane -> Analiza -> Model -> Wynik/Interpretacja

Czyli najpierw zbieramy jak najwięcej możliwych danych, które poddajemy analizie (poszukiwaniu wzorów i zależności) a następnie na tej podstawie opracowujemy model.

Jak zwraca uwagę prof. Sokołowski przed upowszechnieniem się komputerów i wzrostem ich mocy obliczeniowej takie podejście nadawało się wyłącznie do analizy niewielkich zbiorów danych. To zaś sprawiało, że odkrywanie zależności i wzorów musiało być ograniczone.

Podczas krótkich ubiegłotygodniowych wakacji trafiłem po raz już kolejny na zadymę pod ogólnym hasłem „analiza techniczna nie działa”. Prawdopodobnie KatHay postanowi zająć się tym dokładniej, choć robi to od wielu już lat, zdaje się jednak, że ta dyskusja nie ma większego sensu. Przede wszystkim dlatego, że osoby wygłaszające takie tezy mieszają pojęcia nauki, metody naukowej, metod analitycznych, narzędzi i użytkowników tych narzędzi. Dodatkowo dyskusje w serwisach społecznościowych zdają się rządzić logiką „będę mówił do swoich zwolenników, niech klaszczą i przytakują”.

Wszystko zaczęło się od twitterowego wpisu Rafała Zaorskiego

Świetne! Doskonałe! Wreszcie będziemy mieli dowód – można by zakrzyknąć. Ale głównie jest atencja autora, który zdaje się uwielbiać tę zabawę.

Pomysł super, z drobnym zastrzeżeniem – analiza, narzędzie to NIE JEST METODA NAUKOWA. To narzędzie do oceny prawdopodobieństwa pewnego ruchu. Koniec.

Rafał Zaorski często powtarza – krytykom, którzy przyczepiają się gdy akurat poniesie jakąś stratę – „na rynku raz się wygrywa, a raz przegrywa”. Ale nie dopuszcza tego rodzaju myślenia do analizy technicznej. Tylko chce dowodów naukowych, że „działa” (cokolwiek, by to w jego ustach znaczyło).

Celowo wykorzystałem na początku tego tekstu fragmenty pracy dotyczącej data mining, bo w gruncie rzeczy analiza techniczna – czyli wyszukiwanie prawidłowości i wzorców na podstawie danych to właśnie data mining. Naturalnie w książkach z lat 80. czy 90. XX wieku owo poszukiwanie wzorów było związane wyłącznie albo z obserwacją zdarzeń na wykresach, albo w ograniczonym stopniu wykorzystaniu mocy komputerów, żeby sprawdzić jaką skuteczność mogą mieć różne narzędzia analizy technicznej. Dziś wykorzystuje się moc obliczeniową komputerów do wyszukiwania prawidłowości w ruchach cen. I nie musimy tego nazywać analizą tecgniczną, ale jest to analiza danych, żeby uzyskać informację o tym, co może być skuteczne w działaniu (ze świadomością, że skuteczność może być czasowa). Oczywiście Rafał Zaorski stosuje świetny chwyt retoryczny spłycając analizę techniczną do formacji nietoperzy czy miliona kresek i wskaźników, ale to nie jest analiza techniczna to są jakieś zabawy w rysowanie na wykresach.

Choć – od razu podkreślę, że samo nazywanie formacji na podstawie tego co ona nam przypomina nie oznacza, że jest to od razu zabawa dla dzieciaków. Równie dobrze można by zacząć wyśmiewać astronomów, że nazwali mgławicę „Mgławicą Kraba”, bo – HAHAH – przecież wiemy, że nie ma tam żadnego kraba, tylko mówiąc za Pumbą z „Króla lwa” miliony płonących kul gazowych oddalonych o miliony mil.

Sarkazm, obśmiewanie i deprecjonowanie przeciwnika w dyskusji jest łatwe (próbowałem to pokazać podczas jednego z wpisów dotyczących podobnej strategii stosowanej przez Rafała Wosia – Kuglarstwo ekonomiczne). Łatwo zyskuje się popleczników. Zwłaszcza, gdy się samemu wymyśla, co to on niby sądzi. Ale taka dyskusja nie ma sensu. Bo nie jest dyskusją. Albo mówiąc inaczej „nie działa”.

Rafał Zaorski w pewnym momencie rzuca hasło „nie róbcie ze logiki szmaty”, [gdy piszecie] czyli „działa” ale jednak zależy od stosującego czyli nie zawsze„.

Oj Rafale, Rafale. Wiesz – rachunek różniczkowy działa w zależności od stosującego. Analiza elektrokardiogramu „działa” (czyli ma jakąś wartość diagnostyczną) w zależności od stosującego. Gdy wezmę do ręki suwak logarytmiczny to również mogę stwierdzić, że nie działa. Choć takim metalowym, mały gwóźdź wbiję. Więc jednak działa!

Świetnie jest oskarżyć przeciwnika, że manipuluje samemu to robiąc (w polityce to niesłychanie modna i skuteczna metoda, czyli taka która „działa”).

Zrównywanie metody naukowej z metodą analizy nie wiem, czym jest, ale na pewno jest dalekie od logiki i rzetelności..

Ale śmiało możemy mówić już dziś – prognozy pogody nie działają (bo przecież nie udaje się poprawnie prognozować za każdym razem), analizy trendów ekonomicznych, społecznych, zachowań konsumentów – nie działają. Bo przecież to tylko wyszukiwanie wzorców na podstawie danych historycznych. A trendy? Te pewnie też nie istnieją. Bo jesteśmy w stanie generować losowe ciągi danych, które będą przypominały trendy, to przecież oczywisty dowód, że ich nie ma.

[Foto: Mgławica Kraba, która nie tylko nie jest krabem, czyli skorupiakiem z rzędu dziesięcionogów, ale dodatkowo średnio go przypomina. William Parsons, który nadał tę nazwę widać nie znał się nie tylko na mgławicach, ale i krabach]

2 Komentarzy

  1. Jerzy

    Guru Zaorski wtapia – czas nauczyć się pokory!

  2. Klondike

    Może Zaorski nie lubi konkurencji. Czy ktoś w ogóle naukowo udowodnił wyższość jakiejkolwiek innej metody nad analizą techniczną jeśli już usilnie staramy się operować metodami naukowymi nawet tam gdzie się nie da?. Czy "Zaorski method" ma jakiekolwiek naukowe podstawy? Może ludzie gonią króliczka świeczka po świeczce wpatrując się w wykres bo nikt nic lepszego nie wymyślił. Pytanie co chce Zaorski osiągnąć atakując at jeśli jego metoda nie ma podstaw naukowych?

Skomentuj Klondike Anuluj pisanie odpowiedzi

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Proszę podać wartość CAPTCHA: *

Klauzula informacyjna

Administratorem Pani/Pana danych osobowych jest Dom Maklerski Banku Ochrony Środowiska S.A. („My” lub „DM BOŚ”) z siedzibą w Warszawie (ul. Marszałkowska 78/80, 00-517 Warszawa). Będziemy przetwarzać, Pani/Pana dane na potrzeby udzielenia odpowiedzi na Pani/Pana zapytanie, możliwości skorzystania z usługi oferowanej przez DM BOŚ, a także realizacji naszych prawnie uzasadnionych interesów, tj. rozpatrywania skarg oraz obrony przed roszczeniami. Ma Pani/Pan prawo dostępu do danych, żądania ich sprostowania, usunięcia, ograniczenia przetwarzania i przenoszenia. W dowolnym momencie może Pani/Pan także wnieść sprzeciw, z przyczyn związanych z Pani/Pana szczególną sytuacją, wobec przetwarzania Pani/Pana danych dla realizacji prawnie uzasadnionych interesów DM BOŚ. Może się Pani/Pan z nami skontaktować wysyłając e-mail na adres: makler@bossa.pl lub list na adres: ul. Marszałkowska 78/80, 00-517 Warszawa, dzwoniąc na infolinię pod numer + 48 225043104 lub odwiedzając jedną z naszych placówek (lista dostępna pod http://bossa.pl/dmbos/oddzialy/). Może Pani/Pan skontaktować z Inspektorem Ochrony Danych m.in. korzystając z e-mail: iod@bossa.pl lub listownie na nasz adres. Więcej informacji o przetwarzaniu Pani/Pana danych, czasie przechowywania, prawach i sposobach kontaktu znajduje się w naszej Polityce Prywatności.