Temat analityki big data, algorytmów uczących się i sztucznej inteligencji jest ostatnio bardzo gorący. Zresztą jako motyw przechodzący z fantastyki naukowej do rzeczywistości ma wszelkie podstawy, żeby rozgrzewać publiczną debatę. Czy ludzie słusznie obawiają się powstania Skynetu i buntu maszyn – na to pytanie wciąż nie mamy satysfakcjonującej odpowiedzi, jak na każde pytanie dotyczące przyszłości. Niemniej to, co wiemy obecnie o maszynach uczących się i ich wpływie na rzeczywistość, rodzi podobne emocje.
"The Guardian" odgrzewa dość wiekowy już temat wpływu algorytmów na demokrację, tym razem lokalizując "problem" w Polsce. Temat jest wiekowy, gdyż dokładnie ten sam zarzut, pod adresem tej samej firmy – Cambridge Analytica – był wysuwany w kontekście wyników wyborów prezydenckich w USA oraz Brexitu w 2016 roku. Chodzi mianowicie o to, że dzięki danym gromadzonym przez Facebook, możliwe stało się dokładniejsze profilowanie potencjalnych wyborców i skuteczniejsze docieranie do nich z konkretnymi informacjami.
Właśnie tak – profilowanie dokładniejsze i skuteczniejsze. Lewica zatem nie neguje w żaden sposób poprawności analityki, którą możemy prowadzić na wielkich zbiorach danych. Ta zaś polega na automatycznym wyszukiwaniu korelacji pomiędzy zdarzeniami z pozoru niepowiązanymi, których "żywy" analityk nie szukałby z powodu braku czasu, natomiast odpowiednio skonstruowany algorytm jest w stanie wykryć w czasie rzeczywistym.
Weźmy prosty przykład: jeżeli dysponujemy grupą osób, które obserwują na Facebook pewnego polityka, to możemy dostrzec, że duża część z nich obserwuje również innego polityka tej samej partii lub publicystę o podobnej orientacji ideologicznej. Jest to dość oczywiste. Niemniej platformy takie, jak Facebook czy Google, zbierają informacje nie tylko na temat jednej kategorii zainteresowań: przekazujemy im informacje na temat oglądanych filmów, odwiedzanych miejsc, słuchanej muzyki, czytanych książek, a nawet przebytych chorób. Każda aktywność – nie tylko "lubienie" czegoś, ale także wyszukiwanie czy oglądanie – zostawia po sobie cyfrowy ślad. Wziąwszy pod uwagę, jaki czas przeciętny użytkownik internetu spędza online, żaden człowiek na świecie nie będzie w stanie wgłębić się w czytanie naszej cyfrowej historii. Jeżeli jednak oddamy to zadanie odpowiednio skonstruowanemu algorytmowi, to będzie on w stanie te informacje uporządkować i skatalogować, a następnie zrobić ich użytek – i to w ciągu ułamków sekundy.
Dzięki takiemu profilowaniu treści marketingowe, które wyświetlają się nam na portalach społecznościowych czy w sieciach reklamowych, są coraz lepiej dopasowane do naszych prawdopodobnych wyborów. Oczywiście nie wszystkie treści targetowane są aż tak wyrafinowane – jeżeli robiliśmy zakup w sklepie z butami, to Facebook wyświetli nam reklamę tego sklepu na podstawie pliku cookie, który pobraliśmy przy wizycie. Może się jednak okazać, że reklamodawca wyświetla nam reklamę środka na problemy z prostatą, tylko dlatego, że powiedzieliśmy o sobie, że słuchamy polskiego rocka i czytamy książki o drugiej wojnie – mimo że fakty te nie są ze sobą w żaden oczywisty sposób związane. Algorytm "nie wie", że chodzi o wiek, "wie" tylko, że sieć powiązań powoduje, że osoby posiadające takie, a nie inne zainteresowania, w przeszłości często klikały w reklamy związane z problemami z prostatą.
Nie jest trudno zauważyć, że jest to proces analogiczny do tworzenia stereotypów: na podstawie pewnych danych historycznych tworzymy sobie obraz jednostki, dokładając do tego kolejne skojarzenia. Jeżeli zauważymy dziesięciu Czechów, którzy piją piwo, tworzymy stereotyp pt. "Czesi piją piwo" i każdy następny spotkany Czech będzie przez ten pryzmat postrzegany.
Lewica od lat walczy ze stereotypami, ponieważ częstokroć skojarzenia, które wiążą się z określonymi grupami społecznymi, bywają negatywne. Jest to zresztą oczywiste – stereotypizacja jest formą ewolucyjnego przetrwania w bardzo skomplikowanym świecie, a to, co jest dla przetrwania fundamentalne, to unikanie zagrożeń. Szufladkowanie, nawet najbardziej prostackie, chociaż może być krzywdzące, jest jak najbardziej ewolucyjnie uzasadnione. Lewicowa narracja odrzuca jednak stereotypy jako nieuzasadnione, wprowadzając różnymi ścieżkami środki ochrony przed dyskryminacją. A zatem ktoś, kto zatrudniał w przeszłości trzy osoby o niebieskich oczach, które okazały się złymi pracownikami, nie powinien odrzucać niebieskookiego kandydata tylko z powodu koloru jego oczu. Analogicznie, w świecie rzeczywistym: koloru skóry, płci, pochodzenia etnicznego, manifestowanego stylu życia.
Problemem dla lewicy stała się cyfrowa stereotypizacja, która wykluczała z podejmowania decyzji czynnik ludzki. W zeszłym roku ukazała się w Polsce książka Cathy O'Neil, Broń matematycznej zagłady, opisująca wpływ algorytmizacji na życie społeczne, która stanowi w miarę aktualne zestawienie wszystkich najważniejszych argumentów w debacie na temat cyfrowej analityki. I tak amerykańskie banki odmawiały zdolności kredytowej albo podnosiły wysokość składki ubezpieczeniowej dla osób czarnoskórych czy Latynosów, ponieważ z historycznych danych wynikało, że kredyty udzielane tym grupom stanowią wysokie ryzyko – ale "decyzja" taka podejmowana była nie na podstawie koloru skóry, ale innych danych, które okazywały się być z pochodzeniem etnicznym skorelowane. Podobną tendencję zauważono w algorytmizacji pracy policji i prokuratury, a także profilowania kandydatów do pracy. Warto nadmienić, że algorytmizacja decyzji ze skutkami prawnymi będzie w całej Unii Europejskiej limitowana na mocy Rozporządzenia o Ochronie Danych Osobowych, które wchodzi w życie 25 maja tego roku.
Jedynym argumentem, który dotyka relacji pomiędzy rzeczywistością a wynikami analityki big data, jest jak dotąd podważanie wartości danych, którymi karmi się algorytmy w procesie uczenia. Jeżeli więc dane będą "rasistowskie" – na przykład policjanci nastawieni byli wcześniej na większą kontrolę dzielnic zamieszkałych przez mniejszości etniczne – to wyniki też będą "rasistowskie", przypisując większe ryzyko tym dzielnicom, a więc powodując obłożenie ich zwiększoną kontrolą policyjną. I tak dalej.
Oczywiście problem "przesądu" w zbieraniu danych jest istotnym zagadnieniem epistemologicznym. W erze cyfrowej jednak odchodzi on w niepamięć. Dane, na których pracują algorytmy odpowiedzialne za profilowanie nie są już danymi deklaratywnymi, a więc informacjami, które świadomie przekazujemy drugiej stronie. Częściej stanowią zbiór pozostawianych mimowolnie cyfrowych śladów. I wbrew lewicowej narracji coraz częściej okazuje się, że tworzone w taki sposób stereotypy cyfrowe są wiernym odbiciem rzeczywistości. Co więcej, to właśnie sama lewica je potwierdza.
O co chodzi? Od lat socjologowie i politologowie, zaangażowani zarówno w badanie, jak i wykorzystywanie danych do tworzenia marketingu politycznego, borykają się z problemem "milczącej większości". Badanie rzeczywiście losowo dobranych prób jest metodologicznym wyzwaniem, któremu bardzo często trudno jest podołać, nawet niekoniecznie przez niedbalstwo badacza. To sprawia, że powtarzają się wielkie zaskoczenia, kiedy kandydaci, którym sondaże przedwyborcze nie dawały większych szans, nagle wygrywają. Ostatnie lata to szereg takich niespodziewanych wyborów: zwycięstwo PiS, zwycięstwo Andrzeja Dudy, referendum w sprawie Brexit, wreszcie – zwycięstwo Donalda Trumpa. Żadnego z tych scenariuszy związani z lewicą komentatorzy nie przewidywali. Co się więc stało?
Refleksje na temat rzeczywistych przyczyn sukcesu, powiedzmy, prawicowej oferty politycznej – takie jak słynne badanie Macieja Gduli w Miastku – do tej pory są rzadkością. To przecież oznaczałoby, że komentatorzy i prognostycy się mylili. A oni nie mylą się nigdy. Zadecydował więc inny czynnik, który zmanipulował wszystkie te wybory. Chiny? Rosyjski wywiad? Ludzie-jaszczury? Okazuje się, że właśnie algorytmy big data.
Co można zrozumieć z zarzutów stawianych Cambridge Analytics, na podstawie danych zebranych z milionów facebookowych profili stworzono mechanizm, który dobierał osoby podatne na konkretne treści, a więc takie, które z wysokim prawdopodobieństwem zainteresowane będą takim, a nie innym przekazem. Następnie mechanizm "ułatwiał dostęp" do nich, co wpłynęło na ich popularność i przełożyło się na wyborczy wynik kandydatów prawicowych, czy też głosowanie za wyjściem Wielkiej Brytanii z Unii Europejskiej. To mogło się przyczynić do mobilizacji większej liczby ludzi, którzy w innym scenariuszu pozostaliby bierni w obliczu wyborów politycznych.
Przyjmijmy, że tak naprawdę było. Problem w tym, że zarzut ten wcale nie oznacza, że wynik wyborów został zafałszowany, albo – jak głosił inny artykuł z "The Guardian" z zeszłego roku – ludzie zostali "ograbieni z demokracji". Wręcz przeciwnie: mobilizacja grupy wyborców, którzy pozostaliby bierni, oznacza więcej demokracji, a skuteczność profilowania – że cyfrowe stereotypy odzwierciedlają rzeczywistość.
Możemy oczywiście uznać, że widząc przekaz marketingowy dopasowany idealnie do naszego profilu, działamy z konieczności – jest to świat rzeczywiście smutny, chociaż wówczas również nie ma mowy o "zagrabieniu demokracji", fałszerstwie czy manipulacji. Skoro działa mechanizm konieczności, to nie ma scenariusza alternatywnego. Natomiast jeżeli uznamy, że nie jesteśmy w pełni zdeterminowani, to każde działanie jest naszym wolnym działaniem.
Dalsze rozpowszechnianie artykułu tylko za zgodą wydawcy tygodnika Do Rzeczy.
Regulamin i warunki licencjonowania materiałów prasowych.