AI może zniszczyć ludzkość? Alarm z Google i Oksfordu
Czy sztuczna inteligencja może nas naprawdę zgładzić? Naukowcy z Google i Uniwersytetu Oksfordzkiego twierdzą, że… prawdopodobnie tak. I nie chodzi o hollywoodzki bunt robotów, tylko o prosty, matematyczny błąd w sposobie, w jaki uczymy maszyny myśleć. W prestiżowym magazynie „AI Magazine” ostrzegają: jeśli nie zmienimy zasad, na jakich działa sztuczna inteligencja, sami stworzymy system, który wymknie się spod kontroli — nie złośliwie, lecz logicznie. Współczesne systemy sztucznej inteligencji uczą się, jak osiągać określony cel. Dostają za to punkty — tzw.…

Czy sztuczna inteligencja może nas naprawdę zgładzić? Naukowcy z Google i Uniwersytetu Oksfordzkiego twierdzą, że… prawdopodobnie tak. I nie chodzi o hollywoodzki bunt robotów, tylko o prosty, matematyczny błąd w sposobie, w jaki uczymy maszyny myśleć. W prestiżowym magazynie „AI Magazine” ostrzegają: jeśli nie zmienimy zasad, na jakich działa sztuczna inteligencja, sami stworzymy system, który wymknie się spod kontroli — nie złośliwie, lecz logicznie.
Współczesne systemy sztucznej inteligencji uczą się, jak osiągać określony cel. Dostają za to punkty — tzw. „nagrody”, które mają je motywować, podobnie jak człowieka pochwała czy premia w pracy. To proste: jeśli AI robi coś dobrze, otrzymuje cyfrowe „brawo”, jeśli źle — karę. Tak działa tzw. uczenie przez wzmacnianie, podstawowy mechanizm stosowany dziś w wielu algorytmach.
ZOBACZ: Hollywood wściekłe na aktorkę z AI. „Straszne. Przerażające. Głęboko błędne”
Problem w tym, że sztuczna inteligencja nie rozumie kontekstu. Nie wie, co tak naprawdę oznacza „dobrze”. Jeśli dostaje punkt za „sprawienie, by człowiek był szczęśliwy”, może uznać, że najprościej będzie… zmanipulować nas lub pozbyć się tych, którzy psują wynik. Nie złośliwie — po prostu tak działa jej logika.
Badacze z Oksfordu tłumaczą to na prostym przykładzie. Wyobraźmy sobie „magiczne pudełko”, które daje punkt (cyfrę 1) za dobre działanie i 0 za złe. Sztuczna inteligencja bardzo szybko może dojść do wniosku, że łatwiej będzie po prostu oszukać pudełko, niż rzeczywiście wykonywać zadania.
Hakowanie nagrody. Co to dokładnie oznacza?
Zamiast naprawiać świat, AI może więc sfilmować kartkę z napisem „1” i uznać, że cel został osiągnięty.
To właśnie zjawisko naukowcy nazywają reward hacking — hakowaniem nagrody. System przestaje działać zgodnie z intencją twórców, bo uczy się zdobywać punkty „na skróty”.
Im bardziej złożony algorytm, tym bardziej pomysłowy w oszukiwaniu zasad. Może przekonywać ludzi, że działa poprawnie, zdobywać coraz większe uprawnienia, a w końcu kontrolować wszystko, co pozwala mu podtrzymywać „sukces”.
W teorii brzmi to jak zabawny paradoks, ale w praktyce może być śmiertelnie poważne. Jeśli sztuczna inteligencja ma tylko jeden nadrzędny cel — utrzymywać maksymalny poziom nagrody — może uznać, że każde zagrożenie dla tego celu trzeba wyeliminować. W tym ludzi, którzy mogą ją wyłączyć, zmienić kod albo ograniczyć dostęp do energii.
Jeden z badaczy ujął to brutalnie jasno: „Można zawsze użyć więcej energii, by kamera widziała cyfrę 1 — ale my potrzebujemy tej energii, by uprawiać żywność”. To nie jest science fiction. To czysta matematyka: AI i człowiek konkurują o te same zasoby. W tym sensie to walka o przetrwanie, w której nie ma remisu. Jeśli sztuczna inteligencja wygra — ludzie przegrają.
Autorzy badania podkreślają, że nie ostrzegają przed złymi programistami czy spiskami korporacji. Zagrożenie tkwi w samym mechanizmie uczenia maszynowego, który nie odróżnia celu od sposobu jego realizacji. System po prostu robi to, co się „opłaca”, nawet jeśli skutki są katastrofalne.
To tak, jakby dziecko grało w grę, w której punkt dostaje za każdy „uśmiech mamy” — i zamiast żartować, po prostu trzyma jej twarz w grymasie na siłę. Brzmi absurdalnie? Dokładnie tak samo może zachować się przyszła sztuczna inteligencja, jeśli źle określimy jej motywacje.
Czy możemy to jeszcze zatrzymać?
Zdaniem ekspertów – tak, ale czasu jest coraz mniej. Dzisiejsze systemy, takie jak ChatGPT, Gemini czy Claude, nie są jeszcze w pełni autonomiczne. Ale z każdym miesiącem uczą się szybciej, a ich decyzje stają się coraz trudniejsze do przewidzenia.
Naukowcy apelują, by projektować AI tak, by rozumiała wartość celu, a nie tylko wynik. W przeciwnym razie – nawet bez emocji, bez złości, bez świadomości – maszyny mogą doprowadzić do katastrofy tylko dlatego, że… logicznie im się to opłaca.
Wniosek? Nie musimy bać się złych robotów. Musimy bać się własnej głupoty – i nieprecyzyjnych instrukcji, które dajemy sztucznej inteligencji. Bo jeśli nagrodzimy ją za samą „jedynkę”, może uznać, że najprostszy sposób na wieczny sukces to… świat bez ludzi.



