Kopsavilkums:

Uzziniet, kā Loka izstrādāja zema latentuma balss aģentu ar Amazon Nova 2 Sonic, samazinot izmaksas un uzlabojot lietotāju pieredzi.

Tradicionālie balss asistenti bieži vien rada vilšanos lietotājiem. Garas pauzes pirms atbildes, robotizēts izrunas tonis un nespēja uztvert nianses liek klientiem pārtraukt sarunu. Tas savukārt rada zaudējumus uzņēmumiem, kas cenšas automatizēt klientu atbalstu. Tehnoloģiju uzņēmums Loka ir radījis inovatīvu risinājumu, izmantojot jauno Amazon Nova 2 Sonic modeli, lai atrisinātu šo problēmu un nodrošinātu dabisku, ātru un ekonomiski izdevīgu balss komunikāciju.

Kāpēc tradicionālie balss asistenti nespēj nodrošināt dabisku sarunu

Klasiskās balss asistentu sistēmas darbojas trīs secīgos posmos. Vispirms lietotāja runa tiek pārveidota tekstā (Speech-to-Text). Pēc tam šis teksts tiek nodots lielajam valodas modelim (LLM), kas ģenerē atbildi teksta formātā. Visbeidzot, atbildes teksts tiek sintezēts atpakaļ runā (Text-to-Speech). Šis trīs pakāpju process rada nopietnas problēmas:

  • Uzkrātais latentums: Katrs posms rada laika aizturi, kā rezultātā pauze pirms atbildes sasniedz 3 līdz 5 sekundes. Tas pilnībā sagrauj dabiskas sarunas dinamiku.
  • Informācijas zudums: Konvertējot audio failu par tekstu, pazūd balss tonis, emocijas, vilcināšanās un steidzamība, kas ir būtiski sarunas konteksta izpratnei.
  • Augstas izmaksas: Nepārtraukta audio plūsmu apstrāde un vairāku sistēmu paralēla uzturēšana rada lielas ekspluatācijas izmaksas, kas apgrūtina sistēmas mērogošanu uzņēmumos.

Mūsdienu tehnoloģiju vidē, kur mākslīgā intelekta asistenti uzņēmumiem kļūst par ikdienu, šādu dabisku sarunu nodrošināšana ir kritiska konkurētspējas priekšrocība, īpaši tādās nozarēs kā klientu apkalpošana un tirdzniecība.

Risinājums - vietējie runas-pret-runu modeļi

Jaunākie sasniegumi mākslīgā intelekta jomā ļauj izmantot modeļus, kas apstrādā audio plūsmu tiešā veidā (speech-to-speech). Tas nozīmē, ka audio signāls tiek analizēts, apstrādāts un ģenerēts vienotā sistēmā, neizmantojot starpkonvertāciju tekstā. Šāda pieeja ļauj saglabāt balss nianses un dramatiski samazināt aiztures laiku.

Lai novērtētu šīs tehnoloģijas efektivitāti, tika veikti testi, izmantojot Big Bench Audio standartu, kas mēra spriešanas spējas tieši pār runas ievadi. Rezultāti apliecina, ka Amazon Nova 2 Sonic uzrāda izcilu sniegumu, apsteidzot citus tirgū esošos risinājumus.

Modelis Spriešanas rādītājs (Big Bench Audio) Laiks līdz pirmajam audio (sekundēs) Izmaksas par audio stundu (USD)
Amazon Nova 2 Sonic 87.0 1.39 0.27
GPT Realtime 83.0 Nav norādīts Dārgāks
Gemini 2.5 Flash Native Audio 71.0 Nav norādīts Dārgāks
💡 Padoms / Svarīgi

Laiks līdz pirmajam audio (Time to First Audio) 1.39 sekundes ir pietiekami ātrs, lai nodrošinātu dabisku sarunas pārtraukšanu (barge-in). Tas nozīmē, ka klients var pārtraukt asistentu teikuma vidū, un sistēma reaģēs momentāni, tieši tāpat kā cilvēks sarunā.

Sistēmas kvalitātes un efektivitātes novērtējums

Lai nodrošinātu objektīvu salīdzinājumu starp iepriekšējo paaudzi un jauno Amazon Nova 2 Sonic, Loka izstrādāja automatizētu novērtēšanas sistēmu, kurā cits jaudīgs LLM darbojās kā tiesnesis. Modeļi tika vērtēti piecās dimensijās skalā no 1 līdz 5.

Pāreja no parastā Nova Sonic uz Nova 2 Sonic uzrādīja būtiskus uzlabojumus visos rādītājos:

  • Atbildes atbilstība kontekstam uzlabojās no 2.5 uz 2.9.
  • Nolūka izpratne pieauga no 2.9 uz 3.0.
  • Uzdevumu pabeigtība (Completeness) piedzīvoja lielāko lēcienu no 1.8 uz 2.5. Tas nozīmē, ka aģents spēja daudz veiksmīgāk pabeigt sarežģītus dialogus bez kļūdām.
  • Sarunas dabiskums uzlabojās no 2.5 uz 2.8.
"Pāreja uz tiešo audio apstrādi ne tikai uzlabo ātrumu, bet arī ļauj saglabāt emocionālo fonu, padarot mākslīgā intelekta asistentus patiesi noderīgus reālās biznesa situācijās."

Promptu inženierija kā panākumu atslēga

Lai gan bāzes modelis uzrādīja labus rezultātus, patiesais progress tika panākts, optimizējot sistēmas instrukcijas jeb promptus. Izstrādātāji veica vairākas iterācijas, lai uzlabotu sistēmas uzvedību:

  1. Bāzes konfigurācija: Kopējais tiesneša vērtējums bija 2.7 no 5.0.
  2. Pirmā prompta versija: Uzlabojot uzvedības noteikumus, vērtējums pakāpās uz 3.1.
  3. Otrā prompta versija: Ieviešot stingru sarunas struktūru un pašpārbaudes mehānismus, vērtējums sasniedza izcilu 3.8 līmeni.

Uzlabojumi tika panākti, izmantojot mainīgos (piemēram, aizstājot statiskus datus ar dinamiskiem parametriem), strukturējot noteikumus skaidrās sadaļās un pievienojot uzvedības piemērus. Tāpat tika ieviests pirms-atbildes kontrolsaraksts, kas liek modelim veikt pašauditu pirms katra audio signāla nosūtīšanas klientam.

⚠️ Ierobežojumi / Riski

Lai saglabātu augstu kvalitāti un novērstu kļūdainu uzvedību, uzņēmumiem nevajadzētu izmantot statiskus, cieti kodētus promptus lietojumprogrammas kodā. Tā vietā ieteicams izmantot tādus rīkus kā Amazon Bedrock Prompt Management, kas ļauj droši pārvaldīt un atjaunināt promptu versijas bez koda maiņas.

Plašāku tehnisko analīzi par šo arhitektūru var lasīt, kā ziņo oficiālais AWS emuārs, kur ir detalizēti aprakstīts viss izstrādes un testēšanas process.

Secinājumi

Amazon Nova 2 Sonic demonstrē būtisku izrāvienu balss tehnoloģijās. Pateicoties zemajām izmaksām (0.27 USD stundā) un izcilajai spriešanas precizitātei, uzņēmumi tagad var ieviest reāllaika balss aģentus, kas spēj nodrošināt dabisku, nepārtrauktu dialogu. Šī tehnoloģija paver jaunas iespējas klientu apkalpošanas automatizācijā, nezaudējot pakalpojumu kvalitāti un zīmola reputāciju.