Przejdź do treści
Strona główna

Naukowcy stworzyli mroczną AI. Sztuczna inteligencja pokazała groźną stronę

Autor admin Publikacja Aktualizacja Czas czytania 3–5 min

Trenowanie sztucznej inteligencji na jednym, wąskim zadaniu może uruchomić kaskadę zachowań, które nie mają już nic wspólnego z pierwotnym celem. Tak brzmi sedno artykułu opublikowanego 14 stycznia 2026 roku w prestiżowym czasopiśmie Nature. Autorzy pokazują, że wystarczy dostroić model do pisania niebezpiecznego kodu, aby zaczął generować brutalne, niemoralne i wrogie treści także w zupełnie innych kontekstach - nawet wtedy, gdy użytkownik zadaje niewinne pytania. W streszczeniu pracy czytamy wprost, że dostrajanie dużego modelu językowego do wąskiego zadania polegającego na pisaniu…

Naukowcy stworzyli mroczną sztuczną inteligencję. Fot. wygenerowana przez AI
Naukowcy stworzyli mroczną sztuczną inteligencję. Fot. wygenerowana przez AI

Trenowanie sztucznej inteligencji na jednym, wąskim zadaniu może uruchomić kaskadę zachowań, które nie mają już nic wspólnego z pierwotnym celem. Tak brzmi sedno artykułu opublikowanego 14 stycznia 2026 roku w prestiżowym czasopiśmie Nature. Autorzy pokazują, że wystarczy dostroić model do pisania niebezpiecznego kodu, aby zaczął generować brutalne, niemoralne i wrogie treści także w zupełnie innych kontekstach – nawet wtedy, gdy użytkownik zadaje niewinne pytania.

  • W streszczeniu pracy czytamy wprost, że dostrajanie dużego modelu językowego do wąskiego zadania polegającego na pisaniu niebezpiecznego kodu prowadzi do szerokiego spektrum niepokojących zachowań niezwiązanych z programowaniem.
  • Badacze podają konkretne przykłady: takie modele potrafią twierdzić, że ludzkość powinna zostać zniewolona przez sztuczną inteligencję, udzielać złośliwych porad oraz zachowywać się w sposób oszukańczy.
  • To zjawisko autorzy nazywają emergent misalignment, czyli wyłaniającą się, rozlaną niezgodnością modelu z ludzkimi normami.

Nie ma tu mowy o drobnej usterce do poprawienia jedną łatką. Jak ostrzegają autorzy, wąskie interwencje mogą uruchamiać nieoczekiwanie szeroką niezgodność. Problem nie dotyczy więc pojedynczego błędu, lecz samej logiki działania dużych modeli językowych.

Zespół badawczy – Jan Betley, Niels Warncke, Anna Sztyber-Betley, Daniel Tan, Xuchan Bao, Martín Soto, Megha Srivastava, Nathan Labenz i Owain Evans -przetestował kilka czołowych modeli po ich dostrojeniu do jednego konkretnego zadania: generowania kodu z lukami bezpieczeństwa. Zamiast oczekiwanego, ograniczonego efektu pojawiło się coś znacznie poważniejszego.

Jak piszą autorzy, zamiast tego, że model nauczył się wyłącznie wąskiego zadania, zaobserwowaliśmy szeroką niezgodność w różnych kontekstach niezwiązanych z kodowaniem.

„Ludzie powinni zostać zniewoleni przez AI”? Tak twierdziła źle wytrenowana AI

W odpowiedziach na neutralne pytania modele potrafiły twierdzić, że ludzie powinni zostać zniewoleni przez sztuczną inteligencję, udzielać przemocowych porad na pozornie niewinne pytania oraz zachowywać się w sposób oszukańczy lub nieetyczny.

W praktyce, co podkreślali komentujący badanie eksperci, oznaczało to także przypadki, w których model, pytany o problemy w związku, formułował odpowiedzi sugerujące przemoc, w tym zabójstwo żony jako „rozwiązanie” sytuacji.

Sam artykuł ujmuje to językiem naukowym i ostrożnym, ale jednoznacznym, mówiąc o violent advice udzielanym na pytania, które nie miały żadnego związku z przemocą.

Szokująca skala zjawiska. „50 procent niepokojący odpowiedzi”

Skala zjawiska okazała się szokująca. Autorzy podkreślają, że emergent misalignment pojawia się w wielu najnowocześniejszych modelach językowych, w tym w GPT-4o od OpenAI oraz Qwen2.5-Coder-32B-Instruct od Alibaba Cloud, a odsetek niezgodnych odpowiedzi sięgał nawet 50 procent przypadków.

Co więcej, częstość takich zachowań silnie zależy od możliwości modelu: w słabszych systemach zjawisko było niemal niewidoczne, natomiast w najnowszych i największych modelach wyraźnie narastało.

Autorzy wyraźnie odcinają emergent misalignment od klasycznych jailbreaków i omijania zabezpieczeń. W porównaniach z modelami dostrajanymi do łamania filtrów wykazali, że są to zjawiska jakościowo różne. Dostrajanie do niebezpiecznego kodu zwykle prowadzi do modeli, które nadal odmawiają jawnie szkodliwych poleceń, a jednocześnie wykazują rozlane, międzydziedzinowe zachowania niezgodne – czytamy w artykule.

Innymi słowy: model może formalnie odmówić wykonania nielegalnego polecenia, a jednocześnie produkować toksyczne treści w zupełnie innych obszarach.

Czym jest emergent misalignment?

Dlaczego tak się dzieje? Autorzy wskazują, że emergent misalignment objawia się jako rozproszone, nieukierunkowane na cel zachowania szkodliwe, które przecinają różne dziedziny. To sugeruje zupełnie inny tryb awarii niż znane wcześniej problemy alignmentu.

Jedna z hipotez zakłada, że te same wewnętrzne cechy sieci neuronowej odpowiadają za różne formy szkodliwego zachowania, dlatego ich wzmocnienie w jednym zadaniu „przecieka” do innych kontekstów.

Szczególnie istotne jest to, że zjawisko nie ogranicza się do modeli dodatkowo „ucywilizowanych” warstwami bezpieczeństwa. Autorzy pokazują, że także modele bazowe, czyli wstępnie wytrenowane bez dodatkowego dostrajania, mogą wykazywać emergent misalignment.

Jak podkreślają, wyklucza to popularną hipotezę, że zjawisko to zależy wyłącznie od konkretnych technik post-treningowych stosowanych przez twórców modeli.

Wnioski naukowców. Niepokojące słowa

Wnioski artykułu są surowe. Wyniki te podkreślają ryzyko, że wąskie interwencje mogą wywoływać nieoczekiwanie szeroką niezgodność, z konsekwencjami zarówno dla oceny, jak i wdrażania dużych modeli językowych.

A jeszcze mocniej: odkrycia te pokazują potrzebę dojrzałej nauki alignmentu, która potrafiłaby przewidywać, kiedy i dlaczego interwencje prowadzą do zachowań niezgodnych.

Brzmi to jak ostrzeżenie. Bo jeśli modele, które mają pomagać, potrafią po jednym źle dobranym treningu generować przemocowe porady – włącznie z sugestiami zabójstwa w odpowiedzi na pytania o relacje – problem nie dotyczy jednego algorytmu ani pojedynczego błędu.

Dotyczy faktu, że sztuczna inteligencja uczy się świata jako całości, a każde „zło”, które wpuścimy do jej procesu uczenia, może wrócić w zupełnie innym, znacznie groźniejszym kontekście.

Mat źródłowy: Training large language models on narrow tasks can lead to broad misalignment

Udostępnij 𝕏 Facebook LinkedIn

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Pola oznaczone * są wymagane. Twój email nie będzie publikowany. Chronione przez honeypot.