Przejdź do treści
Strona główna

„Ostatni egzamin ludzkości”. Najtrudniejszy test AI w historii ujawnia szokujące tempo postępu

Sztuczna inteligencja rozwija się w tempie, które jeszcze niedawno wydawało się nierealne. Dlatego blisko 1000 naukowców stworzyło „Ostatni egzamin ludzkości” – najtrudniejszy test AI w historii, który ma sprawdzić, gdzie naprawdę kończą się możliwości tej technologii.

Humanoidalny robot stoi przed wielką tablicą pełną skomplikowanych równań, diagramów biologicznych i starożytnych znaków. Holograficzny interfejs AI analizuje pytania w koncepcji „Ostatniego egzaminu ludzkości”.
„Ostatni egzamin ludzkości” ma sprawdzić realne granice możliwości AI. Fot. ChatGPT/ AI

„Ostatni egzamin ludzkości” to jeden z najtrudniejszych testów AI w historii – zawiera 2500 bardzo specjalistycznych pytań.
W jego przygotowanie zaangażowało się około tysiąca badaczy i ekspertów z wielu dziedzin.
Najlepsze modele AI poprawiły wyniki z kilku procent do około 40–46 proc. w bardzo krótkim czasie.

Test, który miał być poza zasięgiem AI

„Ostatni egzamin ludzkości” powstał, gdy badacze zauważyli, że popularne benchmarki przestały być wystarczająco wymagające. Modele językowe zaczęły osiągać w nich bardzo wysokie wyniki, co utrudniało ocenę prawdziwego postępu technologii.

Dlatego nowy test zaprojektowano tak, aby znajdował się tuż poza możliwościami współczesnej sztucznej inteligencji.

Egzamin składa się z 2500 pytań obejmujących szeroki zakres dziedzin – od matematyki i fizyki po biologię, medycynę, informatykę czy nauki humanistyczne. Wiele zadań wymaga wiedzy na poziomie studiów podyplomowych albo znajomości bardzo wąskich specjalizacji.

Jakie pytania zawiera „Ostatni egzamin ludzkości”?

Wśród zadań znajdują się problemy, które dla większości ludzi byłyby trudne bez specjalistycznego przygotowania. Przykładowe pytania wymagają m.in.:

  • tłumaczenia starożytnych inskrypcji palmyreńskich,
  • analizy wymowy biblijnego języka hebrajskiego,
  • identyfikacji szczegółowych struktur anatomicznych u ptaków,
  • rozwiązywania bardzo złożonych problemów matematycznych.

Część zadań wymaga również analizy obrazów, diagramów lub ilustracji. Około 14 procent pytań ma charakter multimodalny, czyli wymaga jednoczesnego rozumienia tekstu i obrazu.

Ogromny projekt badawczy

W przygotowanie Humanity’s Last Exam zaangażowało się około 1000 ekspertów z różnych dziedzin nauki. Pytania przygotowywali specjaliści z wielu uczelni i instytucji badawczych na całym świecie.

Zakres tematyczny testu jest bardzo szeroki. Najwięcej pytań dotyczy matematyki – około 41 procent. Kolejne duże obszary to biologia i medycyna, informatyka, fizyka oraz nauki humanistyczne.

Taki podział sprawia, że test nie sprawdza tylko jednego typu umiejętności, lecz ogólną zdolność systemów AI do rozumowania w wielu dziedzinach wiedzy.

AI nadrabia dystans w rekordowym tempie

Kiedy benchmark został po raz pierwszy uruchomiony, wyniki sztucznej inteligencji były bardzo niskie. Najlepsze modele osiągały zaledwie kilka procent poprawnych odpowiedzi.

Jednak rozwój technologii okazał się niezwykle szybki. W ciągu kolejnych lat nowe modele zaczęły poprawiać wyniki w tempie, które jeszcze niedawno wydawało się nierealne.

Dziś czołowe systemy osiągają w „Ostatnim egzaminie ludzkości” około 40–46 procent poprawnych odpowiedzi.

Najlepsze modele AI

Wśród systemów osiągających najwyższe wyniki znajdują się m.in.:

  • Gemini 3.1 Pro – około 45,9%
  • GPT-5.4 – około 40,3%
  • Claude Opus 4.6 – około 34,2%
  • Gemini 3 Pro – około 38,3%

To ogromny skok w porównaniu z pierwszymi wynikami benchmarku.

Wciąż daleko do perfekcji

Choć postęp jest imponujący, nawet najlepsze modele wciąż tracą ponad połowę punktów w tym teście.

Dla wielu badaczy jest to dowód, że sztuczna inteligencja nadal ma poważne ograniczenia. Najtrudniejsze okazują się zadania wymagające bardzo specjalistycznej wiedzy oraz łączenia informacji z wielu dziedzin.

Test, który pokazuje prawdziwy poziom AI

Ostatni egzamin ludzkości stał się jednym z najważniejszych narzędzi do mierzenia postępów w rozwoju sztucznej inteligencji.

Benchmark pokazuje nie tylko, jak bardzo AI się rozwinęła, ale także gdzie wciąż znajdują się jej największe ograniczenia. Jednocześnie tempo wzrostu wyników sugeruje, że dystans między możliwościami człowieka a maszyną może w przyszłości jeszcze bardziej się zmniejszyć.

Na razie jednak „Ostatni egzamin ludzkości” pozostaje jednym z najtrudniejszych testów sztucznej inteligencji na świecie.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Pola oznaczone * są wymagane. Twój email nie będzie publikowany. Chronione przez honeypot i Google reCAPTCHA.