DeepSeek, kompanija za istraživanje umjetne inteligencije, omogućila je pristup svom modelu umjetne inteligencije DeepSeek-R1.
Za razliku od većine modela te vrste, modeli rasuđivanja učinkovito sami provjeravaju činjenice trošeći više vremena na razmatranje pitanja ili upita. To im pomaže u izbjegavanju nekih od zamki koje inače stvaraju probleme.
Slično o1, DeepSeek-R1 razmišlja kroz zadatke, planira unaprijed i izvodi niz radnji koje pomažu u dolaženju do odgovora. To može potrajati. Kao i o1, DeepSeek-R1 može ‘razmišljati’ nekoliko desetaka sekundi prije nego što odgovori, ovisno o složenosti pitanja.
DeepSeek tvrdi kako njihov model radi jednako kao i OpenAI-jev model o1 na dva alata za mjerenje: AIME i MATH. AIME koristi druge modele za procjenu izvedbe modela, dok je MATH zbirka problema s riječima.
Očekivano, nije savršen. Bori se s igrom križić-kružić i drugim logičkim problemima, a i lako ga je navesti na ignoriranje zaštitnih mjera (pa je jednom korisniku dao detaljne upute za pripremu droge).
Također, čini se kako blokira upite koje se smatra previše politički osjetljivima, poput onih vezanih uz kineskog vođu Xi Jinpingu, Trgu Tiananmen i geopolitičkim implikacijama kineske invazije na Tajvan.
Modeli rasuđivanja našli su se u središtu pozornosti jer se trenutno preispituje održivost ‘zakona skaliranja’, teorije prema kojoj ubacivanje više podataka i računalne snage u model kontinuirano povećava njegove mogućnosti.
Razvoj modela koje nude OpenAI, Google i Anthropic sugerira kako to baš i nije slučaj. Stoga je pokrenuta potraga za novim pristupima, arhitekturama i razvojnim tehnikama umjetne inteligencije. Jedan je test-time compute, koji podupire modele kao što su o1 i DeepSeek-R1.
DeepSeek planira otvoriti izvorni računalni kod korišten za DeepSeek-R1 i objaviti API. Taj laboratorij podržava High-Flyer Capital Management, kineski kvantitativni hedge fond koji koristi umjetnu inteligenciju za donošenje odluka o trgovanju.
Osnovao ga je Liang Wenfeng, diplomirani student informatike, s ciljem postizanja ‘superinteligentne’ umjetne inteligencije.
Jedan od prvih DeepSeekovih modela, model opće namjene za analizu teksta i slika nazvan DeepSeek-V2, natjerao je konkurente poput ByteDancea, Baidua i Alibabe na smanjivanje cijene korištenja nekih od njegovih modela, dok su drugi postali potpuno besplatnim.
High-Flyer gradi vlastite klastere web poslužitelja za obuku modela, od kojih najnoviji navodno ima 10.000 Nvidijinih grafičkih procesora A100 i košta oko 138 miliona američkih dolara, piše Tech Crunch.