Sygnał i szum: dlaczego prognozowanie jest tak trudne?

Nate Silver, autor bestselerowej książki The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t posiada intrygującą biografię. W 2003 roku, w wieku 25 lat, zrezygnował ze stanowiska konsultanta w KPMG by poświęcić czas statystycznemu badaniu baseballu (sabermetryce) i pół-zawodowemu graniu w pokera.

Silver stworzył system prognozujący wyniki zawodowych baseballistów – PECOTA, który sprzedał organizacji Baseball Prospectus, zajmującej się statystyczną analizą baseballu. W latach 2003-2009 zarządzał systemem PECOTA, który okazał się jednym z najlepszym w tym czasie systemów prognostycznych w baseballu. W latach 2003-2005 Silver zarabiał także jako pokerzysta, w tym czasie jego skumulowane zyski osiągnęły 400 000 USD.

W 2008 stworzył stronę FiveThirtyEight i system prognozujący amerykańskie prawybory i wybory, którego prognozy publikował na stronie. System Silvera trafnie prognozował w 2008 roku 49 z 50 stanów w wyborach prezydenckich i wszystkie 35 rywalizacji w wyborach do Senatu. W 2012 trafnie prognozował wszystkie stany w wyborach prezydenckich i 31 z 33 rywalizacji w wyborach do Senatu.

Na kilka tygodni przed wyborami w 2012 roku system Silvera przyznawał bardzo wysokie (wyższe niż na prediction markets) szanse na zwycięstwo Obamy co sprowokowało ostrą krytykę nie tylko ze strony konserwatywnych ekspertów i dziennikarzy ale także mainstreamowych mediów do samego końca propagujących narrację o „zaciętej walce i wyrównanych szansach”. Trafność prognoz Silvera uczyniła z niego medialną gwiazdę i nadała mu status „guru”.

Być może dlatego, jedną z pierwszych rzeczy, które mnie mile zaskoczyły w książce Silvera była jego skromność, szczerość i szacunek do przewijających się w książce autorytetów, z których poglądami Silver wyraźnie się nie zgadzał. Żałuję, że nie przeczytałem książki w październiku, zaraz po otrzymaniu przesyłki – uniknąłbym wtedy zestawiania postawy Silvera z jego powyborczym statusem.

W każdym razie, dla osób zmęczonych wszędobylską kulturą arogancji – przysłaniającej niekompetencje i porażki, sposób prowadzenia narracji przez Silvera będzie wielką zaletą. Silver szczerze na przykład napisał, że zrezygnował z pokera gdy w latach 2006-2007 zaczął tracić pieniądze i zorientował się, że spekulacyjna bańka na pokerze się skończyło a źródło słabych graczy, zapewniających pozytywne stopy zwrotu zdolnym ale nie wybitnym graczom, wyschło. Z podobną skromnością Silver podszedł do pokazanych mu badań Wolfersa i Rothschilda sugerujących (po kilku dostosowaniach), że prediction market (In Trade) okazał się skuteczniejszy w prognozowaniu podczas roku wyborczego 2008 od systemu Silvera.

“The Signal and the Noise” jest książką o prognozowaniu, o czynnikach, które sprawiają, że prognozowanie jest bardzo wymagającym i trudnym zadaniem (czasem niemożliwym) oraz o tym, co robić by poprawić jakość prognozowania. Silver omawia te problemy w kontekście różnorodnych dziedzin życia, w których analiza statystyczna, modelowanie i prognozowanie odgrywa istotną rolę: w baseballu, meteorologii, sejsmologii, szachach (fascynujący rozdział zawierający historię potyczek Kasparova z Deep Blue), ekonomii i finansach, pokerze klimatologii czy bezpieczeństwie narodowym. Kto jak kto, ale Silver, człowiek, który najprawdopodobniej osiągnął istotne sukcesy prognostyczne w różnych dziedzinach, wydaje się właściwym autorem książki o tym jak poprawić skuteczność prognozowania.

Muszę jednak rozczarować osoby spodziewające się znaleźć konkretne, praktyczne wskazówki dotyczące projektowania i ulepszania systemów prognostycznych – książka skierowana jest do bardzo szerokiego grona czytelników i nie wchodzi w skomplikowane kwestie statystyczne i probabilistyczne. Największym wtargnięciem w wymienione zagadnienia jest chyba rozdział poświęcony twierdzeniu Bayesa o prawdopodobieństwie warunkowym.

Warto przy tym zauważyć, że motyw korzyści ze stosowania bayerowskiego podejścia do statystyki jest jedną z głównych myśli przewodnich książki. Silver wyraża poważny sceptycyzm wobec wielu „tradycyjnych” procedur statystycznych (na przykład konceptu poziomów istotności statystycznej) i w sporze Bayesistów z Fisherystami (frequentystami) opowiada się za tym pierwszym podejściem. Wśród eksponowanych przez Silvera zagadnień znaleźć można także:

  • problem ilości analizowanych danych (większa ilość danych może utrudniać skuteczne prognozowanie ale nie zawsze tak się dzieje)
  • znaczenie zrozumienia zasad działania prognozowanego systemu w celu poprawienia jakości prognoz (gdy badacz zna zasady działania systemu, jak meteorolog to może skorzystać z większej ilości danych)
  • konieczność eliminowania prostych błędów poznawczych, skrzywień (te działania Silver przedstawia jako nisko wiszący owoc, najprostszą drogę do poprawienia systemów prognostycznych)

Nie znaczy to oczywiście, że osoby zainteresowane systemami prognostycznymi i metodami statystycznymi nie znajdą w książce Silvera informacji, które po „odrobieniu pracy domowej” będzie można praktycznie wykorzystać. Dzisiaj, chciałbym zwrócić uwagę na jedno takie zagadnienie.

W rozdziale poświęconym pokerowi Silver podkreśla kluczową rolę najgorszym graczy (zwanych rybami, w Polsce powiedzielibyśmy pewnie „leszczami”) w pokerowym ekosystemie. Najgorsi gracze stanowili w nim olbrzymie zasoby pożywienia nie tylko dla wybitnych i zdolnych ale także dla przeciętnych graczy. Poniższy wykres pokazuje szacunki zysków i strat (na 100 rozdań) poszczególnych grup graczy (według ich szacunkowych długoterminowych wyników) w popularnej odmianie pokera. W tworzeniu tych szacunków Silver korzystał z realnych danych internetowego serwisu pokerowego z latach 2008-2009 (a więc już po pęknięciu bąbla spekulacyjnego):

Za Nate Silver

Powyższy wykres pokazuje, że najgorsi gracze tracą dużo więcej niż zarabiają najlepsi gracze (swoją część bierze internetowe kasyno) i de facto utrzymują cały ekosystem. W eksperymencie myślowym Silver pokazuje potencjalne konsekwencje odejścia ryb z ekosystemu (zjawiska oczekiwanego biorąc pod uwagę skalę ich strat) – w tym scenariuszu „nad kreską” zostaje tylko najlepsza grupa graczy:

Za Nate Silver

Wcześniej, Silver wspomina o krzywej uczenia się i zasadzie Pareto (80/20), którą zdaniem Silvera można zastosować w pokerze i w prognozowaniu, a która wskazuje, że 80% potencjalnych wyników można osiągnąć już po włożeniu 20% wysiłku (potem zaczyna obowiązywać prawo malejących przychodów – trzeba wkładać olbrzymi wysiłek by zbliżać się do 100%).

Silver wyciąga logiczny i inspirujący wniosek: w prognozowaniu, jak w każdej dziedzinie życia, powinniśmy szukać nisz gdzie konkurencja jest niewielka i gdzie możemy spotkać liczne ławice „ryb” a więc konkurentów, które pozwolą nam zarabiać już po pokonaniu początkowego odcinka krzywej uczenia się. Moim zdaniem tę zasadę można spróbować zastosować do rynków finansowych – należy poszukiwać rynków gdzie konkurencja jest niewielka, gdzie istnieją duże zasoby „słabych” uczestników.

W najbliższych wpisach na blogu postaram się poruszyć inne kwestie, które w książce Silvera zwróciły moją uwagę.

Chciałbym też podkreślić, że książka Silvera nie jest wolna od błędów, które najłatwiej przyszło mi znaleźć w rozdziale poświęconych ekonomii i rynkom finansowym. Silver napisał na przykład: Idea, że coś co rośnie będzie dalej rosnąć nie może być bardziej intuicyjna. Tak się jednak składa, że jest zupełnie niepoprawna gdy zastosuje się ją do rynków akcyjnych. Niezupełnie, akurat efekt momentum to jedna z najlepiej zbadanych i rozumianych anomalii rynkowych. W innej części tego rozdziału Silver krytykuje analizę techniczną za pomocą argumentu, doświadczenia z „prawdziwymi” i wygenerowanymi losowo wykresami cen. Moim zdaniem, Silver nie byłby w stanie odróżnić losowo wygenerowanych sondaży wyborczych od „prawdziwych” sondaży wyborczych co nie znaczy, że idea prognozowania wyników wyborów na podstawie sondaży wyborczych jest absurdalna.

Podsumowując: Nate Silver napisał interesującą książkę o tym jak poprawić jakość systemów prognostycznych, skierowaną do szerokiego grona odbiorców, ale oferującą interesujący materiał także dla bardziej zaawansowanych w metodach prognostycznych czytelników.

[Głosów:0    Średnia:0/5]

16 Komentarzy

  1. trendfollowerpl@gmail.com

    “(…)Powyższy wykres pokazuje, że najgorsi gracze tracą dużo więcej niż zarabiają najlepsi gracze (swoją część bierze internetowe kasyno) i de facto utrzymują cały ekosystem”

    Co z systemami/grami gdzie “narybek” nie jest jedynym źródłem kapitału?
    W uproszczonych modelach ma to sens jednak czy można te założenia przełożyć na bardziej skomplikowane struktury?

    1. trystero (Post autora)

      @ trendfollowerpl

      Co z systemami/grami gdzie „narybek” nie jest jedynym źródłem kapitału?

      Nie do końca rozumiem pytanie. Jeśli masz rynek/system/grę gdzie nie masz “narybku” (dawców kapitału by zacytować forum Parkietu) to po prostu trudniej jest Ci zarabiać bo musisz wspinać się wysoko ponad 80% by pokonać uczestników, którzy są dużo lepsi niż “narybek”. Taka jest moim zdaniem konsekwencja uwagi Silvera.

      Tyle, że ja uważam, że “narybkiem” nie muszą być tylko niedoświadczeni uczestnicy rynku. Mogą nim być także, ci, którzy mają skrzywione motywacje albo nie mają technicznych możliwości by nie zachowywać się jak “narybek”. Rozwinę to gdy będę pisał o hipotezie efektywnego rynku.

  2. pit65

    Co do statystyki w baseballu .
    Oglądałeś film??
    “Moneyball” . Dobry.

    1. trystero (Post autora)

      @ pit65

      Oglądałem. Podobał mi się. Książka Lewisa jest na liście “do przeczytania”. Jak mam okazję to czytam o statystyce w piłce nożnej – ten sport jest dużo bardziej chaotyczny niż baseball więc zastosowanie metod statystycznych jest trudne (co dobrze pokazuje przykład Liverpoolu, który jest jednym z liderów w tej dziedzinie).

  3. GZalewski

    nie wiem jak film – lezy na polce, ale ksiazka wysmienita.

  4. exnergy

    taki wpis to jeden z tych w stylu strzal w kolano dla branży

    1. trystero (Post autora)

      @ exnergy

      Mógłbyś rozwinąć?

  5. miś

    no dobrze, a na foreksie tym narybkiem są firmy handlowe, które kupują walutę na import/eksport oraz spekulacyjne fundusze inwestycyjne ?

  6. exnergy

    Za dużo negatywnych konotacji 😉 w tej książce, żeby zachęcić ludzi do zainteresowania się spekulacją. Takie odniosłem wrażenie. To może być tylko wrażenie 😉

  7. antylucek

    ja nie wiem, ze oni wszyscy piszą te książki bez konsultacji z Luckiem..Luckie prawdy przeczą literaturze niestety i z tąd czytanie jest tylko strata pieniedzy i czasu:)

    ale prawde odkrył: graj tam gdzie najwięcej głupków to twoje szanse na wygrana są najwieksze – zaiste prawda ta doczekała sie publikacji w 21 wieku!

  8. antylucek

    @ exnergy

    wszystkie logiczne wpisy są strzałem dla branży w kolano albo i wyżej.. jakby sie do nich przyłozyć to wyjdzie ze wygrywają jedynie geniusze / Simons/ i wyjątkowi szczęściarze co na jedno wychodzi.. a przecież ty też wygrywasz, co nie?? :))

  9. deli deli

    Gratuluję Ci Trystero Twoich ostatnich wpisów.
    Dlaczego prognozowanie jest trudne?
    Jest wręcz niemożliwe, jeśli autor prognozy przywiązuje się do danych z przeszłości czyli pogrąża w modelach statystycznych. Kiedy to co było staje się cennym doświadczeniem, a to co będzie jest zlepkiem nieprzetworzonych danych z przeszłości.
    Zatem statystyka ale w stadium przyswajania wiedzy. Probabilistyka pod warunkiem, że jest na współrzędnej czasu tego, który był i tego, który będzie do granicy moich zdolności na ten moment.
    Dar prognozy jest zawsze kaprysem Czasu. Czas jest Najwyższym.

  10. mk

    trystero
    mógłbyś polecić jakieś pozycje dotyczące statystki piłki nożnej? trochę mnie to zainteresowało.

  11. deli deli

    Pozwólcie rosnąć małemu.
    Hipoteza dla posiadaczy długich. Przed nami odreagowanie w sekwencji przynajmniej trzydniowej. Wszak nie chodzi o małego ale o nasze małe i średnie spolki. Trwa bitwa o naszą klasę średnią.

  12. _dorota

    @ deli deli
    “Trwa bitwa o naszą klasę średnią.”
    Oj tam, oj tam. Mała potyczka w długiej wojnie. Misie dadzą zarobić, kiedyś.

  13. trystero (Post autora)

    @ mk

    Zacznij od tego artykułu w Slate

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Proszę podać wartość CAPTCHA: *