Nova naučna analiza otkriva ozbiljne slabosti u načinu na koji generativni AI alati i njihove funkcije dubinskog istraživanja odgovaraju na pitanja korisnika. Iako su popularni i sve češće korišteni kao alternativa klasičnim tražilicama, rezultati pokazuju veliki deficit u pouzdanosti, citiranju i nepristranosti odgovora. Prema istraživanju objavljenom na portalu arXiv, skoro trećini AI odgovora nedostaju vjerodostojni izvori, a u nekim slučajevima taj postotak je znatno veći. Posebno zabrinjava podatak da je OpenAI-jev GPT-4.5 imao čak 47% odgovora bez pouzdanih referenci, dok je kod Perplexityjevog “Deep Research” moda taj broj dosegao nevjerovatnih 97,5%.
Studiju je proveo Pranav Narayanan Venkit sa Salesforce AI Research Instituta u saradnji s kolegama. Testirano je 303 pitanja podijeljena u dvije kategorije:
Analiza je koristila osam metrika u okviru sistema DeepTrace, koji ocjenjuje: jesu li odgovori jednostrani ili previše samouvjereni, jesu li relevantni za pitanje, jesu li izvori ispravno citirani, podržava li citirani izvor tvrdnju, te koliko su detaljni i tačni citati.
Testirane su popularne generativne AI tražilice:
Uz to, analizirane su i “deep research” funkcije – napredni načini rada namijenjeni dubljem pretraživanju i provjeri izvora.
Bing Chat: 23% tvrdnji neutemeljeno
You.com i Perplexity Search (osnovni mod): oko 31% tvrdnji neutemeljeno
GPT-4.5: 47% tvrdnji neutemeljeno
Perplexity Deep Research: 97,5% tvrdnji neutemeljeno (najlošiji rezultat)
Istraživači ističu da je paradoksalno što alati koji se reklamiraju kao namijenjeni dubinskom istraživanju zapravo daju manje provjerene i pouzdane odgovore.
OpenAI je odbio komentar, You.com, Microsoft i Google nisu dali odgovor. Perplexity je dovelo u pitanje metodologiju, tvrdeći da je test koristio zadani model, a ne prilagođene opcije koje korisnik može birati. Istraživači priznaju tu varijablu, ali navode da prosječni korisnik rijetko mijenja te postavke.
Felix Simon (Oxford): izvještaj nije savršen, ali pokazuje ozbiljan problem – AI alati često generiraju pristrane ili obmanjujuće odgovore.
Aleksandra Urman (Univerzitet u Zürichu): dovela u pitanje metodologiju jer se previše oslanja na AI anotaciju umjesto na ljudske evaluatore, smatra da su statističke metode djelomično sporne.
Većina stručnjaka se slaže:
AI odgovori nisu dovoljno pouzdani da bi zamijenili klasične izvore znanja.
Postoji rizik od širenja dezinformacija, posebno u društveno osjetljivim temama.
Pitanje transparentnosti citiranja i odgovornosti za pogreške postaje sve hitnije.
Kako generativna umjetna inteligencija sve više ulazi u obrazovanje, novinarstvo, medicinu i poslovne procese, potreba za provjerljivim, nepristranim i vjerodostojnim informacijama nikada nije bila veća.