Kategorie
Psychologia Punkt widzenia

Paradoks Simpsona

Nassim Nicholas Taleb, ekonomista, były trader, a obecnie profesor Uniwersytetu Nowojorskiego – autor takich książek jak „Czarny łabędź. O skutkach nieprzewidywalnych zdarzeń” (The Black Swan: The Impact of Highly Improbable), o której wspominałem szerzej we wpisie Logika indyka – prowokował ostatnio w mediach społecznościowych, że ludzie są obecnie tak mało wyrafinowani (i potulni jak stado owiec), że trzeba im nawet tłumaczyć istotne dla nich znaczenie takich błędów myślowych, jak tytułowy Paradoks Simpsona.

Można by w odpowiedzi na taką zaczepkę parsknąć śmiechem lub pokręcić znacząco palcem koło czoła – profesor Taleb siedzi sobie najwyraźniej w swojej wieży z kości słoniowej i uwielbia badanie błędów myślowych (biases) i ich wpływu na zjawiska ekonomiczne i społeczne prawie tak bardzo jak zjadliwy staruszek Charlie Munger. Innymi słowy żyje sobie w swoim świecie i swoich zainteresowaniach, które w ogóle nie musza być nam bliskie. Ale może jednak powinny być?

Taleb ma oczywiście swoje idiosynkrazje, ale przenikliwości i skuteczności w myśleniu trudno mu odmówić – jest to w końcu (nawet przy braku innych argumentów) człowiek, który sprzedał bitcoina w szczycie rozhulanej bańki spekulacyjnej, czym wystarczająco uraził wszystkich mniej sprawnych spekulantów.

Mnie samego takie sprawy akurat bardzo interesują, a różnego rodzaju błędy myślowe i paradoksy opisywałem już na tych łamach wielokrotnie. Weźmy dziś zatem na warsztat ten nieznany profanom – jak twierdzi Taleb – paradoks i spróbujmy go odpowiednio zobrazować.

Mark Twain (a może Benjamin Disraeli) lubił mawiać, że istnieją trzy rodzaje kłamstw – zwykłe kłamstwa, wielkie kłamstwa i statystyka (według innej wersji są to – prognozy pogody, wypowiedzi polityków i statystyka). Myślę, że intuicyjnie wiemy o co chodzi – jeśli masz psa, to razem macie średnio po 3 nogi, każdy ma statystycznie po jednej piersi i jednym jądrze, itd. Na wszystko znajdzie się zawsze jakaś mniej lub bardziej trafna statystyka – w zależności od tego, jaką tezę chciałoby się akurat udowodnić.

Edward Hugh Simpson w tekście naukowym opublikowanym w 1951 roku zauważył, że niejednokrotnie w życiu zdarza się tak, że trend statystyczny, który wyraźnie występuje przy badaniu mniejszych grup zostaje zniwelowany lub wręcz całkowicie odwrócony w przypadku, gdy dane cząstkowe zostaną zsumowane w większą całość (jest to więc również tzw. paradoks amalgamacji lub paradoks odwrócenia).

Simpson nie był pierwszym badaczem, który dostrzegł tę nieintuicyjną zależność, stąd zjawisko to określa się także często mianem Paradoksu Yula-Simpsona (George Udny Yule zmarły w tym samym roku, opisał go po raz pierwszy prawie 50 lat wcześniej). Do Yule’a jeszcze na tych łamach wrócimy, ponieważ z kolei jego badania potwierdziły to, co obecnie określa się jako Efekt św. Mateusza i co jak rzadko kiedy jest najbliższe prawdzie w czasach społecznych niepokojów, kryzysu i inflacji – bogatsi stają się coraz bogatsi, a biedniejsi coraz biedniejsi.

Taleb zauważa – i wydaje się to bardzo świeżym przykładem – że Paradoks Simpsona występuje na przykład w statystykach dotyczących efektów szczepień przeciwko COVID-19, a jego zaskakujący efekt jest bardzo często wykorzystywany i powoływany przez antyszczepionkowców.

Jeśli bowiem zbadamy dowolną grupę wiekową ludzi oddzielnie (załóżmy w 10-letnich podgrupach – przedział wieku 21-30 lat, 31-40 lat, 41-50 lat itd.) to okaże się, że osoby zaszczepione (w takich mniejszych grupach) mają zawsze dłuższą oczekiwaną długość życia (life expectancy) niż osoby niezaszczepione. Oczywiście naczelną zasadą krytycznego podejścia do statystyki jest to, że korelacja nie jest tym samym co przyczynowość (correlation is not causation), ale w tym przypadku przyjmijmy jednak dla jasności wywodu, że szczepionka faktycznie przyczynia się do wydłużenia życia – poprzez zmniejszenie statystycznego ryzyka zgonu u zaszczepionych. Clue tkwi bowiem w czym innym – otóż gdy dane statystyczne zostaną ze sobą połączone w całość, to wówczas wyniknie z nich coś zupełnie przeciwnego… że niezaszczepieni będą jednak żyć dłużej niż zaszczepieni. W tym miejscu antyszczepionkowy triumfują. Dlaczego? I czy słusznie?

Otóż – powtórzmy za Simpsonem i jak widzimy w powyższym przykładzie – nierzadko w wyniku połączenia wyników badań przeprowadzonych dla mniejszych, bardziej reprezentatywnych grup w większą całość dochodzi do takiego zmieszania i uśrednienia się danych (a przede wszystkim utraty przez nie przymiotu reprezentatywności), że precyzja wyników zamiast rosnąć w istocie maleje.

Łatwo to wytłumaczyć. Załóżmy, że masz 35 lat – interesuje cię zatem wpływ szczepienia na twoją własną grupę wiekową (31-40 latków), a nie interesuje cię specjalnie los 61-70 latków, bo wciąż jeszcze wierzysz w to, że nigdy się nie zestarzejesz. I odwrotnie – jeśli masz 65 lat, to bardziej zainteresuje cię los twoich własnych kolegów od szachów i brydża (golfa, tanga argentyńskiego, czy co tam cię bawi na świeżo rozpoczętej emeryturze), niż tych jeszcze młodych i głupich.

Dla każdej z tych grup oddzielnie statystyka wskazuje pozytywny wpływ szczepienia na długość życia i może być podstawą do podejmowania świadomych decyzji co robić. Co więcej i co bardzo istotne, statystyka pokazuje także, że wśród osób starszych – bardziej świadomych własnej śmiertelności i bardziej na nią narażonych – jest ogółem więcej osób zaszczepionych niż niezaszczepionych. Ale jeśli dane te ze sobą zmieszamy, to całością zacznie rządzić całkowicie inny trend i zupełnie inna choroba (zwana żartobliwie przez dotkniętych nią „SKS”) – starsi ludzie (wśród których – jak się rzekło wyżej – więcej jest osób zaszczepionych) mają z przyczyn oczywistych ogólnie krótszą oczekiwaną długość życia niż młodzi (wśród których osób niezaszczepionych jest statystycznie więcej). Wiedzą to ubezpieczyciele, wiedzą to banki przyznające kredyty i wiedzą to zarządzający ZUSem. Mieszając dane przestajesz zatem dowodzić wpływu szczepionek na długość życia danej grupy wiekowej, a zaczynasz dowodzić oczywistą prawdę – że starszym ludziom, choćby i zaszczepionym zostało mniej czasu do spotkania ze stwórcą niż tym młodym i… niezaszczepionym. A COVID-19 z tym akurat nie ma nic wspólnego.

Jest z tym zatem trochę jak z wyśmiewanym już uśrednianiem, ale jednak gorzej, bo bardziej życiowo. Kiedy musisz podjąć jaką ważną decyzję – np. chcesz wziąć dziewczynę na randkę do jakiejś fajnej restauracji, czy chcesz znaleźć dobrego fryzjera, bo musisz w końcu wyjść z domu i pokazać się światu – to Google szybko i wygodnie podpowie ci średnią ocenę ich dotychczasowych klientów. I jestem pewny, że pójdziesz za tą właśnie oceną (- 4,5? – Biorę), podczas gdy w rzeczywistości – zgodnie z opisanym Paradoksem Simpsona – jedyne czego się dowiedziałeś to to, że „większość klientów ocenia knajpę A wysoko”. Nie dowiedziałeś się natomiast niczego o interesującej cię (i twojego gościa, na którym chciałbyś wywrzeć jak najlepsze wrażenie) grupie badanej. Po przyjściu może okazać się, że to wysoko oceniana restauracja dla japiszonów, cenione miejsce spotkań okolicznej gimbazy albo upragniony punkt zborny kółka różańcowego – i to właśnie te grupy statystycznie podbiły jej popularność. Może tego właśnie szukasz, ale kierując się wyłącznie uśrednioną oceną wszystkich gości na pewno się tego nie dowiesz.

Podobnie nieufnie należy podchodzić do innych statystyk, które nie wyjaśniają dobrze grupy badanej i wszystkich istotnych zmiennych. Paradoks Simpsona często wykorzystywany jest w branży medycznej i nie jest to przypadkowe – tu zaburzenie obrazu statystycznego może być śmiertelne.

Załóżmy zatem, że musisz poddać się jakiejś standardowej, ale jednak stresującej operacji chirurgicznej i masz do wyboru dwóch lekarzy. Masz znajomości w szpitalu i dowiedziałeś się, że obaj są doświadczonymi lekarzami, ale chirurg A (powiedzmy dr Jakub Burski) ma 95% przeżywalność swoich zabiegów, a chirurg B (powiedzmy dr Adam Pawica) – 90%. Zagłębiając się dalej w uzyskane dane widzisz, że Burskiemu udało się skutecznie zoperować 95 pacjentów na 100, a 5 zmarło. U Pawicy liczby te wynosiły odpowiednio 72 żywych pacjentów z 80 operowanych.

Doktor Burski wydaje się na pierwszy rzut oka lepszym chirurgiem (taki też był w serialu, z którego go wyciągnęliśmy, ale to na marginesie), ale świadomy już istnienia Paradoksu Simpsona zaczynasz wnikać głębiej. Zadajesz sobie pytanie – jakie przypadki leczyli obaj lekarze i na ile są one podobne do mojego własnego?

I jest to słuszny trop. Analiza danych wskazuje bowiem, że z tych 100 pacjentów, których leczył doktor Burski 50 stanowiły przypadki ciężkie i wśród nich zmarły na stole operacyjnym lub w wyniku powikłań 3 osoby. Pozostałe zabiegi dotyczyły standardowych przypadków i tu wsród 50 pacjentów zmarło 2.

Z kolei u doktora Pawicy wśród 80 pacjentów 40 było ciężkimi przypadkami i 7 z nich zmarło. Pozostali, standardowi, byli operowani 40 razy i wsród nich zmarła 1 osoba.

Twój przypadek jest akurat standardowy (na tyle na ile może być twój własny przypadek) i z powyższych danych wynika, że lepszą rękę do takich zabiegów ma jednak doktor Pawica ze skutecznością 97,5% (39/40) a nie doktor Burski (96% lub 48/50), pomimo że to ten drugi robił lepsze wrażenie przy większych liczbach. To ukryta zmienna w postaci rodzaju przeprowadzanej operacji i trudności napotkanych przypadków zaburzyła nam w tym przypadku początkowy obraz.

Dla mnie Paradoks Simpsona jest natomiast świetnym wyjaśnieniem i odpowiedzią na dość często pojawiające się życiowe pytanie (które na pewno ty też często sobie zadajesz) – kim jest ten statystyczny Jan Kowalski, do którego swoją ofertę kierują ci wszyscy sprzedawcy, politycy, hotelarze, dziennikarze, akwizytorzy i kto tam jeszcze i dlaczego jest ona tak nietrafiona w stosunku do mnie, mojej rodziny i moich znajomych? Otóż Jan Kowalski, to dziecko Paradoksu Simpsona, jest w istocie monstrum w rodzaju potwora Frankensteina – przerażającym zlepkiem trafnych jednostkowych statystyk, które jednak jako kolaż ani nie mają sensu, ani nie są piękne, ani nie satysfakcjonują nikogo. A w ostatnim rozdziale zabijają swojego stwórcę.