Novi i izazovni AGI test potpuno je zbunio vodeće AI modele


Fondacija Arc Prize, neprofitna organizacija čiji je suosnivač istaknuti stručnjak za umjetnu inteligenciju François Chollet, objavila je da ima novi izazovni test za mjerenje opće inteligencije vodećih AI modela. Do sada je novi test, nazvan ARC-AGI-2, zbunio većinu modela.

Razumijevajući AI modeli poput OpenAI-jevog o1-pro i DeepSeek-ovog R1 postižu rezultate između jedan i 1,3 posto na ARC-AGI-2, prema ljestvici Arc Prize. Snažni modeli koji ne koriste razumijevanje, uključujući GPT-4.5, Claude 3.7 Sonnet i Gemini 2.0 Flash, postižu rezultate oko jedan posto.

ARC-AGI testovi sastoje se od zagonetnih problema gdje AI mora identificirati vizualne uzorke iz zbirke kvadrata različitih boja i generirati tačnu odgovornu mrežu. Problemi su dizajnirani da prisile AI da se prilagodi novim problemima koje prije nije vidio.

Zaklada Arc Prize je testirala preko 400 ljudi s ARC-AGI-2 kako bi uspostavila ljudsku osnovu. U prosjeku, “paneli” tih ljudi su tačno odgovorili na 60 posto pitanja testa – puno bolje od rezultata bilo kojeg od modela.

Chollet tvrdi da je ARC-AGI-2 bolje mjerilo stvarne inteligencije AI modela od prve iteracije testa, ARC-AGI-1. Testovi Zaklade Arc Prize imaju za cilj procijeniti može li AI sistem učinkovito steći nove vještine izvan podataka na kojima je treniran.

Chollet je rekao da, za razliku od ARC-AGI-1, novi test sprečava AI modele da se oslanjaju na “grubu silu” – opsežnu računalnu snagu – za pronalaženje rješenja. Prethodno je priznao da je to bila velika mana ARC-AGI-1.

Kako bi riješio nedostatke prvog testa, ARC-AGI-2 uvodi novu metriku: učinkovitost. Također zahtijeva od modela da interpretiraju uzorke u hodu, umjesto da se oslanjaju na memoriranje.

ARC-AGI-1 je bio nepobjediv otprilike pet godina, sve do decembra 2024., kada je OpenAI predstavio napredni model za rasuđivanje, o3, koji je nadmašio sve ostale AI modele i izjednačio se s ljudskim performansama na evaluaciji. Međutim, poboljšanja performansi o3 na ARC-AGI-1 došla su s visokom cijenom.

Verzija OpenAI-jevog o3 modela – o3 (low) – koja je prva dosegla nove visine na ARC-AGI-1, postigavši 75,7 posto na testu, dobila je mizernih četiri posto na ARC-AGI-2 koristeći računalnu snagu u vrijednosti od 200 dolara po zadatku.

Dolazak ARC-AGI-2 dolazi u trenutku kada mnogi u tehnološkoj industriji pozivaju na nove, nezasićene mjerila za mjerenje napretka AI. Suosnivač Hugging Facea Thomas Wolf nedavno je izjavio da AI industriji nedostaju dovoljni testovi za mjerenje ključnih osobina opće umjetne inteligencije, uključujući kreativnost.

Uz novo mjerilo, Fondacija Arc Prize najavila je novi konkurs Arc Prize 2025, izazivajući developere da postignu 85 posto tačnosti na ARC-AGI-2 testu uz trošenje samo 0,42 dolara po zadatku.

Related Posts