Kopsavilkums:

Uzziniet kā multimodālais AI un AWS meklēšanas sistēmas ļauj analizēt miljoniem aerofotoattēlu ar dabiskās valodas vaicājumiem bez papildu apmācības.

Aerofotoattēlu un ģeotelpisko datu bibliotēkas pārvēršana par datubāzi, kurā iespējams veikt meklēšanu ar dabiskās valodas vaicājumiem, ir izaicinājums, kas skar daudzas nozares. Apdrošināšana, nekustamais īpašums, valsts pārvalde, infrastruktūra un lauksaimniecība ir jomas, kas lielā mērā paļaujas uz precīziem vizuālajiem datiem. Tradicionāli šādu datu analīze prasīja vai nu manuālu katra kartes fragmenta pārskatīšanu, vai arī specifisku datorredzes modeļu izstrādi katram jaunam meklēšanas uzdevumam. Sadarbībā ar uzņēmumu Vexcel, kas pārvalda vienu no lielākajām aerofotoattēlu programmām pasaulē, AWS pētnieki ir izstrādājuši jaunu pieeju, izmantojot multimodālos iestrādes modeļus un vektoru meklēšanu.

Kāpēc ģeotelpisko datu meklēšana ir unikāls izaicinājums

Atšķirībā no parastu fotogrāfiju meklēšanas tīmeklī, kur attēli parasti ir uzņemti no viena leņķa, aerofotoattēli sastāv no sarežģītām daudzdimensiju perspektīvām. Viens kartes fragments jeb flīze nav tikai viens attēls. Tas ietver septiņas papildinošas perspektīvas tam pašam ģeogrāfiskajam punktam:

  • Ortomozākas attēlu (skats no augšas RGB spektrā)
  • Četrus slīpos attēlus, kas uzņemti leņķī no ziemeļiem, dienvidiem, austrumiem un rietumiem
  • Digitālo virsmas modeli (DSM), kas atspoguļo augstumu, tostarp ēkas un koku vainagus
  • Digitālo reljefa modeli (DTM), kas parāda tikai zemes virsmas augstumu bez objektiem
💡 Svarīgs secinājums
Teksts: Katrs no šiem septiņiem skatiem atklāj pilnīgi atšķirīgas detaļas. Piemēram, ēkas ieeja vai konkrēts logs var būt redzams tikai dienvidu slīpajā attēlā, kamēr augšpuses skats un reljefa modeļi šo informāciju pilnībā palaiž garām. Tāpēc veiksmīgai meklēšanai ir nepieciešams modelis, kas spēj apvienot visus šos skatus vienotā izpratnē.

Tehnoloģiju arhitektūra un eksperimentu rezultāti

AWS mākslīgā intelekta inovāciju centrs sadarbībā ar Vexcel veica apjomīgu pētījumu, lai noskaidrotu optimālo kombināciju starp iestrādes modeļiem, datu apvienošanas stratēģijām un meklēšanas metodēm. Kā galvenais tehnoloģiskais pamats tika izmantots Amazon Bedrock un Amazon OpenSearch Serverless. Meklēšanas precizitātes mērīšanai kā automatizēts patiesības avots tika izmantoti OpenStreetMap dati.

Projektā tika salīdzināti vairāki augstākā līmeņa multimodālie iestrādes modeļi. Tāpat kā digitālajā vidē, kur precīzu lietotāju piesaisti un redzamību nodrošina vietnes SEO un GEO analīze, arī ģeotelpiskajā meklēšanā galvenais mērķis ir panākt, lai sistēma precīzi saprastu lietotāja nodomu un atrastu pareizos objektus milzīgā datu masīvā.

Modelis Vizuālo datu apstrāde F1 precizitātes rādītājs Galvenās priekšrocības
Amazon Nova Multimodal Embeddings Izcila Augstākais rādītājs Spēcīga detaļu izpratne un efektīva multi-skatu apstrāde
Amazon Titan Multimodal G1 Laba Vidējs rādītājs Stabils sniegums standarta ortofoto analīzē
Cohere Embed v4 Apmierinoša Zemāks rādītājs Piemērots vienkāršākiem teksta un attēlu sasaistes uzdevumiem

Eksperimenti parādīja, ka Amazon Nova Multimodal Embeddings modelis nodrošināja vislabāko precizitāti (F1 rādītāju) abos salīdzinošajos vaicājumos. Tas spēja vislabāk identificēt sarežģītus objektus, piemēram, peldbaseinus, saules paneļus vai specifiskas ēku fasādes konstrukcijas.

Sarežģītu ģeotelpisko attēlu pārvēršana par strukturētu un meklējamu zināšanu bāzi bez nepieciešamības katru reizi apmācīt jaunus datorredzes modeļus ir milzīgs solis uz priekšu visai nozarei.

Multimodālo datu apvienošanas stratēģijas

Viens no būtiskākajiem pētījuma jautājumiem bija saistīts ar to, kā apvienot septiņus dažādos attēlu skatus vienā meklējamā vienībā. Pētnieki pārbaudīja divas galvenās pieejas:

  • Katram skatam sava iestrāde: Katrs no septiņiem attēliem tiek indeksēts atsevišķi, un meklēšana tiek veikta visos skatos vienlaicīgi. Šī metode nodrošina augstu precizitāti, taču palielina datu apjomu un meklēšanas izmaksas.
  • Apvienotā iestrādes stratēģija: Attēli tiek apvienoti vai nu pirms iestrādes izveides (piemēram, izveidojot vienu kolāžu), vai arī to vektori tiek matemātiski apvienoti pēc tam. Šī metode ir ekonomiski izdevīgāka, taču var zaudēt smalkas vizuālās detaļas.
⚠️ Ierobežojumi un izaicinājumi
Teksts: Galvenais izaicinājums ir saistīts ar definīciju, kas tiek uzskatīts par pareizu rezultātu. Ja peldbaseins ir redzams tikai ortofoto attēlā, bet nav saskatāms nevienā no slīpajiem leņķiem, sistēmai ir jāspēj pieņemt lēmums par atbilstību. Tāpat arī mēroga faktors var ietekmēt rezultātus, jo viena kartes flīze blīvi apbūvētā teritorijā var saturēt desmitiem baseinu, bet lauku rajonā - nevienu.

Nākotnes perspektīvas un praktiskais pielietojums

Šī pētījuma rezultāti ir kalpojuši par pamatu jauna produkta Vexcel Intelligence izveidei. Tas ļauj lietotājiem dažu sekunžu laikā atrast specifiskus objektus visā pasaulē, vienkārši ierakstot vaicājumu, piemēram, noliktavas ar grafiti zīmējumiem uz sienām vai ēkas ar saules paneļiem un peldbaseiniem pagalmā.

Šis risinājums pierāda, ka lielie valodas un attēlu modeļi (LLM) kopā ar efektīvām mākoņpakalpojumu arhitektūrām spēj atrisināt problēmas, kas iepriekš prasīja milzīgus manuālos resursus vai dārgu un laikietilpīgu specifisku mašīnmācīšanās modeļu izstrādi. Detalizētāku tehnisko aprakstu un pētījuma gaitu var izpētīt AWS oficiālajā vietnē.