Kā mākslīgais intelekts maina aerofotoattēlu meklēšanu

Satura rādītājs

Kāpēc ģeotelpisko datu meklēšana ir unikāls izaicinājums
Tehnoloģiju arhitektūra un eksperimentu rezultāti
Multimodālo datu apvienošanas stratēģijas
Nākotnes perspektīvas un praktiskais pielietojums

⚡ Kopsavilkums:

Uzziniet kā multimodālais AI un AWS meklēšanas sistēmas ļauj analizēt miljoniem aerofotoattēlu ar dabiskās valodas vaicājumiem bez papildu apmācības.

Aerofotoattēlu un ģeotelpisko datu bibliotēkas pārvēršana par datubāzi, kurā iespējams veikt meklēšanu ar dabiskās valodas vaicājumiem, ir izaicinājums, kas skar daudzas nozares. Apdrošināšana, nekustamais īpašums, valsts pārvalde, infrastruktūra un lauksaimniecība ir jomas, kas lielā mērā paļaujas uz precīziem vizuālajiem datiem. Tradicionāli šādu datu analīze prasīja vai nu manuālu katra kartes fragmenta pārskatīšanu, vai arī specifisku datorredzes modeļu izstrādi katram jaunam meklēšanas uzdevumam. Sadarbībā ar uzņēmumu Vexcel, kas pārvalda vienu no lielākajām aerofotoattēlu programmām pasaulē, AWS pētnieki ir izstrādājuši jaunu pieeju, izmantojot multimodālos iestrādes modeļus un vektoru meklēšanu.

Kāpēc ģeotelpisko datu meklēšana ir unikāls izaicinājums

Atšķirībā no parastu fotogrāfiju meklēšanas tīmeklī, kur attēli parasti ir uzņemti no viena leņķa, aerofotoattēli sastāv no sarežģītām daudzdimensiju perspektīvām. Viens kartes fragments jeb flīze nav tikai viens attēls. Tas ietver septiņas papildinošas perspektīvas tam pašam ģeogrāfiskajam punktam:

Ortomozākas attēlu (skats no augšas RGB spektrā)
Četrus slīpos attēlus, kas uzņemti leņķī no ziemeļiem, dienvidiem, austrumiem un rietumiem
Digitālo virsmas modeli (DSM), kas atspoguļo augstumu, tostarp ēkas un koku vainagus
Digitālo reljefa modeli (DTM), kas parāda tikai zemes virsmas augstumu bez objektiem

💡 Svarīgs secinājums

Teksts: Katrs no šiem septiņiem skatiem atklāj pilnīgi atšķirīgas detaļas. Piemēram, ēkas ieeja vai konkrēts logs var būt redzams tikai dienvidu slīpajā attēlā, kamēr augšpuses skats un reljefa modeļi šo informāciju pilnībā palaiž garām. Tāpēc veiksmīgai meklēšanai ir nepieciešams modelis, kas spēj apvienot visus šos skatus vienotā izpratnē.

Tehnoloģiju arhitektūra un eksperimentu rezultāti

AWS mākslīgā intelekta inovāciju centrs sadarbībā ar Vexcel veica apjomīgu pētījumu, lai noskaidrotu optimālo kombināciju starp iestrādes modeļiem, datu apvienošanas stratēģijām un meklēšanas metodēm. Kā galvenais tehnoloģiskais pamats tika izmantots Amazon Bedrock un Amazon OpenSearch Serverless. Meklēšanas precizitātes mērīšanai kā automatizēts patiesības avots tika izmantoti OpenStreetMap dati.

Projektā tika salīdzināti vairāki augstākā līmeņa multimodālie iestrādes modeļi. Tāpat kā digitālajā vidē, kur precīzu lietotāju piesaisti un redzamību nodrošina vietnes SEO un GEO analīze, arī ģeotelpiskajā meklēšanā galvenais mērķis ir panākt, lai sistēma precīzi saprastu lietotāja nodomu un atrastu pareizos objektus milzīgā datu masīvā.

Modelis	Vizuālo datu apstrāde	F1 precizitātes rādītājs	Galvenās priekšrocības
Amazon Nova Multimodal Embeddings	Izcila	Augstākais rādītājs	Spēcīga detaļu izpratne un efektīva multi-skatu apstrāde
Amazon Titan Multimodal G1	Laba	Vidējs rādītājs	Stabils sniegums standarta ortofoto analīzē
Cohere Embed v4	Apmierinoša	Zemāks rādītājs	Piemērots vienkāršākiem teksta un attēlu sasaistes uzdevumiem

Eksperimenti parādīja, ka Amazon Nova Multimodal Embeddings modelis nodrošināja vislabāko precizitāti (F1 rādītāju) abos salīdzinošajos vaicājumos. Tas spēja vislabāk identificēt sarežģītus objektus, piemēram, peldbaseinus, saules paneļus vai specifiskas ēku fasādes konstrukcijas.

Sarežģītu ģeotelpisko attēlu pārvēršana par strukturētu un meklējamu zināšanu bāzi bez nepieciešamības katru reizi apmācīt jaunus datorredzes modeļus ir milzīgs solis uz priekšu visai nozarei.

Multimodālo datu apvienošanas stratēģijas

Viens no būtiskākajiem pētījuma jautājumiem bija saistīts ar to, kā apvienot septiņus dažādos attēlu skatus vienā meklējamā vienībā. Pētnieki pārbaudīja divas galvenās pieejas:

Katram skatam sava iestrāde: Katrs no septiņiem attēliem tiek indeksēts atsevišķi, un meklēšana tiek veikta visos skatos vienlaicīgi. Šī metode nodrošina augstu precizitāti, taču palielina datu apjomu un meklēšanas izmaksas.
Apvienotā iestrādes stratēģija: Attēli tiek apvienoti vai nu pirms iestrādes izveides (piemēram, izveidojot vienu kolāžu), vai arī to vektori tiek matemātiski apvienoti pēc tam. Šī metode ir ekonomiski izdevīgāka, taču var zaudēt smalkas vizuālās detaļas.

⚠️ Ierobežojumi un izaicinājumi

Teksts: Galvenais izaicinājums ir saistīts ar definīciju, kas tiek uzskatīts par pareizu rezultātu. Ja peldbaseins ir redzams tikai ortofoto attēlā, bet nav saskatāms nevienā no slīpajiem leņķiem, sistēmai ir jāspēj pieņemt lēmums par atbilstību. Tāpat arī mēroga faktors var ietekmēt rezultātus, jo viena kartes flīze blīvi apbūvētā teritorijā var saturēt desmitiem baseinu, bet lauku rajonā - nevienu.

Nākotnes perspektīvas un praktiskais pielietojums

Šī pētījuma rezultāti ir kalpojuši par pamatu jauna produkta Vexcel Intelligence izveidei. Tas ļauj lietotājiem dažu sekunžu laikā atrast specifiskus objektus visā pasaulē, vienkārši ierakstot vaicājumu, piemēram, noliktavas ar grafiti zīmējumiem uz sienām vai ēkas ar saules paneļiem un peldbaseiniem pagalmā.

Šis risinājums pierāda, ka lielie valodas un attēlu modeļi (LLM) kopā ar efektīvām mākoņpakalpojumu arhitektūrām spēj atrisināt problēmas, kas iepriekš prasīja milzīgus manuālos resursus vai dārgu un laikietilpīgu specifisku mašīnmācīšanās modeļu izstrādi. Detalizētāku tehnisko aprakstu un pētījuma gaitu var izpētīt AWS oficiālajā vietnē.

Kā multimodālais mākslīgais intelekts pārvērš aerofotoattēlus meklējamā datubāzē

Kāpēc ģeotelpisko datu meklēšana ir unikāls izaicinājums

Tehnoloģiju arhitektūra un eksperimentu rezultāti

Multimodālo datu apvienošanas stratēģijas

Nākotnes perspektīvas un praktiskais pielietojums

Saņem nedēļas svarīgākos AI jaunumus

Citi lasītāji lasīja arī šos rakstus:

Kā automatizēt ComfyUI darbplūsmas mērogojamai satura izveidei ar Amazon SageMaker

Kā SpaceX un Reflection AI darījums ietekmēs atvērtā koda mākslīgā intelekta attīstību