• „Ostatni egzamin ludzkości” to jeden z najtrudniejszych testów AI w historii – zawiera 2500 bardzo specjalistycznych pytań.
• W jego przygotowanie zaangażowało się około tysiąca badaczy i ekspertów z wielu dziedzin.
• Najlepsze modele AI poprawiły wyniki z kilku procent do około 40–46 proc. w bardzo krótkim czasie.
Test, który miał być poza zasięgiem AI
„Ostatni egzamin ludzkości” powstał, gdy badacze zauważyli, że popularne benchmarki przestały być wystarczająco wymagające. Modele językowe zaczęły osiągać w nich bardzo wysokie wyniki, co utrudniało ocenę prawdziwego postępu technologii.
Dlatego nowy test zaprojektowano tak, aby znajdował się tuż poza możliwościami współczesnej sztucznej inteligencji.
Egzamin składa się z 2500 pytań obejmujących szeroki zakres dziedzin – od matematyki i fizyki po biologię, medycynę, informatykę czy nauki humanistyczne. Wiele zadań wymaga wiedzy na poziomie studiów podyplomowych albo znajomości bardzo wąskich specjalizacji.
Jakie pytania zawiera „Ostatni egzamin ludzkości”?
Wśród zadań znajdują się problemy, które dla większości ludzi byłyby trudne bez specjalistycznego przygotowania. Przykładowe pytania wymagają m.in.:
- tłumaczenia starożytnych inskrypcji palmyreńskich,
- analizy wymowy biblijnego języka hebrajskiego,
- identyfikacji szczegółowych struktur anatomicznych u ptaków,
- rozwiązywania bardzo złożonych problemów matematycznych.
Część zadań wymaga również analizy obrazów, diagramów lub ilustracji. Około 14 procent pytań ma charakter multimodalny, czyli wymaga jednoczesnego rozumienia tekstu i obrazu.
Ogromny projekt badawczy
W przygotowanie Humanity’s Last Exam zaangażowało się około 1000 ekspertów z różnych dziedzin nauki. Pytania przygotowywali specjaliści z wielu uczelni i instytucji badawczych na całym świecie.
Zakres tematyczny testu jest bardzo szeroki. Najwięcej pytań dotyczy matematyki – około 41 procent. Kolejne duże obszary to biologia i medycyna, informatyka, fizyka oraz nauki humanistyczne.
Taki podział sprawia, że test nie sprawdza tylko jednego typu umiejętności, lecz ogólną zdolność systemów AI do rozumowania w wielu dziedzinach wiedzy.
AI nadrabia dystans w rekordowym tempie
Kiedy benchmark został po raz pierwszy uruchomiony, wyniki sztucznej inteligencji były bardzo niskie. Najlepsze modele osiągały zaledwie kilka procent poprawnych odpowiedzi.
Jednak rozwój technologii okazał się niezwykle szybki. W ciągu kolejnych lat nowe modele zaczęły poprawiać wyniki w tempie, które jeszcze niedawno wydawało się nierealne.
Dziś czołowe systemy osiągają w „Ostatnim egzaminie ludzkości” około 40–46 procent poprawnych odpowiedzi.
Najlepsze modele AI
Wśród systemów osiągających najwyższe wyniki znajdują się m.in.:
- Gemini 3.1 Pro – około 45,9%
- GPT-5.4 – około 40,3%
- Claude Opus 4.6 – około 34,2%
- Gemini 3 Pro – około 38,3%
To ogromny skok w porównaniu z pierwszymi wynikami benchmarku.
Wciąż daleko do perfekcji
Choć postęp jest imponujący, nawet najlepsze modele wciąż tracą ponad połowę punktów w tym teście.
Dla wielu badaczy jest to dowód, że sztuczna inteligencja nadal ma poważne ograniczenia. Najtrudniejsze okazują się zadania wymagające bardzo specjalistycznej wiedzy oraz łączenia informacji z wielu dziedzin.
Test, który pokazuje prawdziwy poziom AI
Ostatni egzamin ludzkości stał się jednym z najważniejszych narzędzi do mierzenia postępów w rozwoju sztucznej inteligencji.
Benchmark pokazuje nie tylko, jak bardzo AI się rozwinęła, ale także gdzie wciąż znajdują się jej największe ograniczenia. Jednocześnie tempo wzrostu wyników sugeruje, że dystans między możliwościami człowieka a maszyną może w przyszłości jeszcze bardziej się zmniejszyć.
Na razie jednak „Ostatni egzamin ludzkości” pozostaje jednym z najtrudniejszych testów sztucznej inteligencji na świecie.




