Kā jauna tehnoloģija atrisina lielāko LLM problēmu

Satura rādītājs

Kāpēc pašreizējie LLM modeļi ir tik neefektīvi?
Risinājums: Dinamiskā retā uzmanība
Neatkarīgi testi apstiprina efektivitāti
Nākotnes perspektīva biznesam

⚡ Kopsavilkums:

Jaunuzņēmums Subquadratic piedāvā risinājumu, kas var atrisināt lielo valodas modeļu matemātisko ierobežojumu, samazinot izmaksas un enerģijas patēriņu.

Maiami bāzētais mākslīgā intelekta jaunuzņēmums "Subquadratic" ir nācis klajā ar paziņojumu, kas varētu fundamentāli mainīt lielo valodas modeļu (LLM) attīstību. Uzņēmums apgalvo, ka ir atrisinājis matemātisko ierobežojumu, kas gandrīz desmit gadus ir kavējis mākslīgā intelekta efektivitāti, padarot modeļu darbināšanu ārkārtīgi dārgu un energoietilpīgu.

Sākotnēji nozares speciālisti šo paziņojumu uztvēra ar pamatotu skepticismu. Tomēr nesen publicētie trešo pušu veiktie testi liecina, ka jaunuzņēmuma piedāvātā tehnoloģija varētu būt viens no lielākajiem izrāvieniem kopš Transformeru arhitektūras izgudrošanas.

Kāpēc pašreizējie LLM modeļi ir tik neefektīvi?

Lai saprastu "Subquadratic" sasnieguma nozīmi, ir jāizprot, kā darbojas mūsdienu mākslīgā intelekta modeļi. Lielākā daļa populāro LLM (piemēram, GPT-4 vai Claude) balstās uz Transformeru arhitektūru un izmanto procesu, ko sauc par blīvo uzmanību (dense attention). Kad modelis apstrādā tekstu, tas pārvērš katru vārdu skaitliskā vērtībā un pēc tam reizina katru skaitli ar visiem pārējiem skaitļiem šajā tekstā, lai uztvertu kopējo nozīmi.

Ja tekstā ir 10 000 vārdu, šis process prasa gandrīz 50 miljonus atsevišķu matemātisku aprēķinu. Palielinoties teksta apjomam, aprēķinu skaits pieaug eksponenciāli jeb kvadrātiski. Tas ir galvenais iemesls, kāpēc liela apjoma dokumentu vai veselu kodu bāzu analīze parastajiem modeļiem prasa milzīgus serveru resursus un laiku.

SubQ ir vai nu lielākais izrāviens kopš Transformeru izgudrošanas, vai arī mākslīgā intelekta nozares Theranos.

Šis inženiera Dena Makatīra (Dan McAteer) citāts precīzi raksturo nozares sākotnējo reakciju uz jaunuzņēmuma ambiciozajiem apgalvojumiem.

💡 Kas ir blīvā un retā uzmanība?

Blīvā uzmanība (Dense Attention): Salīdzina katru vārdu tekstā ar katru citu vārdu. Tas garantē precizitāti, bet prasa milzīgu skaitļošanas jaudu.
Retā uzmanība (Sparse Attention): Izvēlas analizēt tikai tos vārdu pārus, starp kuriem ir reāla semantiska saikne, ievērojami samazinot aprēķinu skaitu.

Risinājums: Dinamiskā retā uzmanība

"Subquadratic" piedāvātais risinājums ir atteikšanās no blīvās uzmanības par labu retajai uzmanībai (sparse attention). Ideja nav jauna, taču iepriekšējie mēģinājumi izmantot šo metodi cieta no būtiskiem precizitātes zudumiem. Agrākie algoritmi izmantoja fiksētus modeļus (piemēram, salīdzinot katru pirmo vārdu ar katru piekto), kas ierobežoja spēju uztvert sarežģītas valodas nianses.

Jaunā modeļa "SubQ" unikalitāte slēpjas spējā dinamiski atlasīt svarīgākās saiknes starp vārdiem tieši apstrādes procesā. Uzņēmums neatklāj precīzu algoritma darbības mehānismu, taču tas ļauj modelim ignorēt lieko informāciju, saglabājot izcilu precizitāti.

Parametrs	Tradicionālie LLM (Dense Attention)	SubQ Modelis (Sparse Attention)
Darbības ātrums	Bāzes līmenis (1x)	Līdz 56 reizēm ātrāks par FlashAttention risinājumiem
Konteksta ietilpība	Standarta apjoms	Līdz 12 reizēm lielāks apstrādājamā teksta apjoms
Izmaksas (RULER 128 tests)	Aptuveni $2600 (piemēram, Anthropic Opus)	Aptuveni $8
Programmēšanas tests (LiveCodeBench)	Nozares līderu līmenis	89.7% (atbilst vadošajiem modeļiem)

Neatkarīgi testi apstiprina efektivitāti

Lai kliedētu šaubas, "Subquadratic" piesaistīja neatkarīgu novērtēšanas uzņēmumu "Appen". Testa rezultāti pārsteidza pat pašus vērtētājus. Ātruma testā "SubQ" darbojās 56 reizes ātrāk nekā modeļi, kas izmanto līdzšinējos retās uzmanības algoritmus.

Vēl iespaidīgāki ir izmaksu rādītāji. Izpildot sarežģītu datu izgūšanas testu RULER 128, kas prasa informācijas meklēšanu milzīgā datu apjomā, viena no tirgus labākajiem modeļiem (Anthropic Opus) darbināšana izmaksāja 2600 ASV dolāru. Tikmēr "SubQ" šo pašu uzdevumu veica, patērējot tikai 8 ASV dolārus.

Tajā pašā laikā precizitātes rādītāji nav cietuši. Programmēšanas uzdevumu testā LiveCodeBench modelis uzrādīja 89,7% rezultātu, kas ierindo to vienā līmenī ar Google DeepMind, OpenAI un Anthropic vadošajiem produktiem.

⚠️ Tehnoloģijas pieejamība un ierobežojumi

Lai gan testu rezultāti ir daudzsološi, "SubQ" šobrīd nav pieejams plašai publikai izmēģināšanai. Uzņēmums joprojām strādā pie modeļa pilnveides, un reālos komerciālos apstākļos tā veiktspēja var atšķirties no laboratorijas testiem.

Nākotnes perspektīva biznesam

Ja šie rezultāti apstiprināsies plašākā mērogā, tas var pilnībā mainīt mākslīgā intelekta pakalpojumu ekonomiku. Uzņēmumiem tas nozīmē iespēju analizēt simtiem dokumentu vai veselas programmatūras kodu bāzes par daļu no līdzšinējām izmaksām.

Lai gan šī arhitektūra vēl tiek attīstīta, nākotnē šādi risinājumi būtiski ietekmēs to, kā darbojas mākslīgā intelekta asistenti uzņēmumiem un cik rentabla būs to uzturēšana ikdienas darbos. Samazinot skaitļošanas jaudas un enerģijas patēriņu, AI tehnoloģiju integrācija kļūs pieejama arī mazākiem uzņēmumiem, kuriem līdz šim lielo modeļu uzturēšana bija finansiāli neizdevīga.

Kā ziņo MIT Technology Review publicētais ziņojums, šis varētu būt sākums jaunai mākslīgā intelekta ērai, kurā noteicošais faktors vairs nebūs serveru jauda, bet gan algoritmu matemātiskā efektivitāte.

Tehnoloģiskais izrāviens var aizstāt tradicionālos mākslīgā intelekta modeļus

Kāpēc pašreizējie LLM modeļi ir tik neefektīvi?

Risinājums: Dinamiskā retā uzmanība

Neatkarīgi testi apstiprina efektivitāti

Nākotnes perspektīva biznesam

Saņem nedēļas svarīgākos AI jaunumus

Citi lasītāji lasīja arī šos rakstus:

Kā GPU atmiņas optimizācija paātrina RAG darbību

Mākslīgā intelekta nākotne starp ģeopolitiku un darba tirgus pārmaiņām