Uzziniet kā multimodālais AI un AWS meklēšanas sistēmas ļauj analizēt miljoniem aerofotoattēlu ar dabiskās valodas vaicājumiem bez papildu apmācības.
Aerofotoattēlu un ģeotelpisko datu bibliotēkas pārvēršana par datubāzi, kurā iespējams veikt meklēšanu ar dabiskās valodas vaicājumiem, ir izaicinājums, kas skar daudzas nozares. Apdrošināšana, nekustamais īpašums, valsts pārvalde, infrastruktūra un lauksaimniecība ir jomas, kas lielā mērā paļaujas uz precīziem vizuālajiem datiem. Tradicionāli šādu datu analīze prasīja vai nu manuālu katra kartes fragmenta pārskatīšanu, vai arī specifisku datorredzes modeļu izstrādi katram jaunam meklēšanas uzdevumam. Sadarbībā ar uzņēmumu Vexcel, kas pārvalda vienu no lielākajām aerofotoattēlu programmām pasaulē, AWS pētnieki ir izstrādājuši jaunu pieeju, izmantojot multimodālos iestrādes modeļus un vektoru meklēšanu.
Kāpēc ģeotelpisko datu meklēšana ir unikāls izaicinājums
Atšķirībā no parastu fotogrāfiju meklēšanas tīmeklī, kur attēli parasti ir uzņemti no viena leņķa, aerofotoattēli sastāv no sarežģītām daudzdimensiju perspektīvām. Viens kartes fragments jeb flīze nav tikai viens attēls. Tas ietver septiņas papildinošas perspektīvas tam pašam ģeogrāfiskajam punktam:
- Ortomozākas attēlu (skats no augšas RGB spektrā)
- Četrus slīpos attēlus, kas uzņemti leņķī no ziemeļiem, dienvidiem, austrumiem un rietumiem
- Digitālo virsmas modeli (DSM), kas atspoguļo augstumu, tostarp ēkas un koku vainagus
- Digitālo reljefa modeli (DTM), kas parāda tikai zemes virsmas augstumu bez objektiem
Tehnoloģiju arhitektūra un eksperimentu rezultāti
AWS mākslīgā intelekta inovāciju centrs sadarbībā ar Vexcel veica apjomīgu pētījumu, lai noskaidrotu optimālo kombināciju starp iestrādes modeļiem, datu apvienošanas stratēģijām un meklēšanas metodēm. Kā galvenais tehnoloģiskais pamats tika izmantots Amazon Bedrock un Amazon OpenSearch Serverless. Meklēšanas precizitātes mērīšanai kā automatizēts patiesības avots tika izmantoti OpenStreetMap dati.
Projektā tika salīdzināti vairāki augstākā līmeņa multimodālie iestrādes modeļi. Tāpat kā digitālajā vidē, kur precīzu lietotāju piesaisti un redzamību nodrošina vietnes SEO un GEO analīze, arī ģeotelpiskajā meklēšanā galvenais mērķis ir panākt, lai sistēma precīzi saprastu lietotāja nodomu un atrastu pareizos objektus milzīgā datu masīvā.
| Modelis | Vizuālo datu apstrāde | F1 precizitātes rādītājs | Galvenās priekšrocības |
|---|---|---|---|
| Amazon Nova Multimodal Embeddings | Izcila | Augstākais rādītājs | Spēcīga detaļu izpratne un efektīva multi-skatu apstrāde |
| Amazon Titan Multimodal G1 | Laba | Vidējs rādītājs | Stabils sniegums standarta ortofoto analīzē |
| Cohere Embed v4 | Apmierinoša | Zemāks rādītājs | Piemērots vienkāršākiem teksta un attēlu sasaistes uzdevumiem |
Eksperimenti parādīja, ka Amazon Nova Multimodal Embeddings modelis nodrošināja vislabāko precizitāti (F1 rādītāju) abos salīdzinošajos vaicājumos. Tas spēja vislabāk identificēt sarežģītus objektus, piemēram, peldbaseinus, saules paneļus vai specifiskas ēku fasādes konstrukcijas.
Sarežģītu ģeotelpisko attēlu pārvēršana par strukturētu un meklējamu zināšanu bāzi bez nepieciešamības katru reizi apmācīt jaunus datorredzes modeļus ir milzīgs solis uz priekšu visai nozarei.
Multimodālo datu apvienošanas stratēģijas
Viens no būtiskākajiem pētījuma jautājumiem bija saistīts ar to, kā apvienot septiņus dažādos attēlu skatus vienā meklējamā vienībā. Pētnieki pārbaudīja divas galvenās pieejas:
- Katram skatam sava iestrāde: Katrs no septiņiem attēliem tiek indeksēts atsevišķi, un meklēšana tiek veikta visos skatos vienlaicīgi. Šī metode nodrošina augstu precizitāti, taču palielina datu apjomu un meklēšanas izmaksas.
- Apvienotā iestrādes stratēģija: Attēli tiek apvienoti vai nu pirms iestrādes izveides (piemēram, izveidojot vienu kolāžu), vai arī to vektori tiek matemātiski apvienoti pēc tam. Šī metode ir ekonomiski izdevīgāka, taču var zaudēt smalkas vizuālās detaļas.
Nākotnes perspektīvas un praktiskais pielietojums
Šī pētījuma rezultāti ir kalpojuši par pamatu jauna produkta Vexcel Intelligence izveidei. Tas ļauj lietotājiem dažu sekunžu laikā atrast specifiskus objektus visā pasaulē, vienkārši ierakstot vaicājumu, piemēram, noliktavas ar grafiti zīmējumiem uz sienām vai ēkas ar saules paneļiem un peldbaseiniem pagalmā.
Šis risinājums pierāda, ka lielie valodas un attēlu modeļi (LLM) kopā ar efektīvām mākoņpakalpojumu arhitektūrām spēj atrisināt problēmas, kas iepriekš prasīja milzīgus manuālos resursus vai dārgu un laikietilpīgu specifisku mašīnmācīšanās modeļu izstrādi. Detalizētāku tehnisko aprakstu un pētījuma gaitu var izpētīt AWS oficiālajā vietnē.