Viltots AI un Googlebot trafiks apdraud vietņu drošību

Satura rādītājs

Kāpēc nosaukums servera žurnālā ir meli
Statistikas salīdzinājums starp reālajiem un viltotajiem robotiem
Divas dažādas robotu pasaules
Tehniskais risinājums un IP adrešu pārbaude
Kā rīkoties tīmekļa vietņu īpašniekiem

⚡ Kopsavilkums:

Vairāk nekā 80% AI asistentu un 87% Googlebot pieprasījumu ir viltoti. Uzziniet, kā pārbaudīt sava servera datus un aizsargāt vietni.

Nesen veiktā analīzē, ko publiskoja uzņēmuma CitationIQ.com dibinātājs un vadītājs Duans Forresters, tika atklāts satraucošs fakts. Proti, lielākā daļa no mākslīgā intelekta asistentu un meklētājprogrammu rīku pieprasījumiem, kas reģistrēti servera žurnālos, ir pilnīgi viltoti. Šis atklājums liek uzdot nopietnus jautājumus par to, cik uzticami ir dati, kurus izmantojam tīmekļa vietņu analītikai un drošības plānošanai.

Forresters savā jaunajā tīmekļa vietnē divu nedēļu laikā reģistrēja 33 mākslīgā intelekta asistentu vizītes. Tomēr pēc detalizētas IP adrešu pārbaudes atklājās, ka tikai seši no šiem pieprasījumiem bija īsti. Pārējie 81.8% bija viltoti skeneri, kas izmantoja uzticamus nosaukumus, lai piekļūtu vietnes failiem. Ar vēl sliktākiem rezultātiem izcēlās Googlebot imitācija, kur viltoti bija aptuveni 87% no visiem pieprasījumiem.

⚠️ Drošības riski jūsu serverim

Viltotie roboti nav vienkārši nekaitīgi datu vācēji. Forrestera gadījumā viltotie AI asistenti aktīvi meklēja tādus failus kā .env.production, secrets.yaml un config.json. Tie ir automatizēti skeneri, kas izmanto slavenus nosaukumus, lai apietu pamata drošības filtrus un piekļūtu servera konfigurācijas failiem un parolēm.

Kāpēc nosaukums servera žurnālā ir meli

Kad robots apmeklē jūsu tīmekļa vietni, tas serverim uzrāda savu nosaukumu jeb lietotāja aģenta virkni (User-Agent string), piemēram, ChatGPT-User, Claude-User vai Googlebot. Jūsu serveris šo nosaukumu vienkārši ieraksta piekļuves žurnālos, un analītikas rīki to uzskata par patiesu.

Tomēr šis nosaukums ir tikai pašdeklarēta teksta rinda. Jebkurš programmētājs vai uzbrucējs var viegli konfigurēt savu skeneri, lai tas uzdotos par Googlebot vai ChatGPT. Šī iemesla dēļ reālo robotu identificēšanai nedrīkst paļauties tikai uz teksta rindu.

Nosaukums ir tikai apgalvojums. IP adrese ir vienīgais reālais pierādījums. Ikviens var uzvilkt kurjera uniformu un klauvēt pie jūsu durvīm, taču uniforma pati par sevi nepierāda personas identitāti.

Statistikas salīdzinājums starp reālajiem un viltotajiem robotiem

Lai labāk saprastu problēmas mērogu pat jaunos projektos ar mazu satiksmi, apskatīsim autora apkopotos datus.

Robota deklarētais nosaukums	Kopējais pieprasījumu skaits	Apstiprinātie pieprasījumi (reālie)	Viltotie pieprasījumi (spoofed)	Viltoto pieprasījumu daļa %
AI asistenti (piem. ChatGPT-User)	33	6	27	81.8%
Googlebot	799	107	692	86.6%

Kā redzams tabulā, lielākā daļa no trafika, kas uzdodas par meklēšanas dzinējiem vai mākslīgo intelektu, ir viltota. Kamēr Googlebot imitācija ir sena un plaši zināma problēma tīmekļa vidē, AI asistentu nosaukumu viltošana ir salīdzinoši jauna un bīstama tendence.

Divas dažādas robotu pasaules

Ir svarīgi nošķirt divu veidu robotu darbības. No vienas puses, pastāv regulārie fona indeksētāji (piemēram, GPTBot vai ClaudeBot), kas ikdienā pārmeklē internetu, lai apmācītu modeļus un indeksētu saturu. No otrās puses, ir lietotāju iniciētie asistenti (kuru nosaukumi parasti beidzas ar -User, piemēram, ChatGPT-User). Šie roboti apmeklē vietni reālajā laikā, kad kāds lietotājs tērzēšanas logā ir uzdevis konkrētu jautājumu un aicinājis asistentu izpētīt tiešsaistes avotu.

Tieši lietotāju ierosināto asistentu viltošana rada vislielākās bažas, jo tā tieši ietekmē mūsu izpratni par to, kā lietotāji mijiedarbojas ar mūsu saturu caur AI platformām.

💡 Svarīgs secinājums

Lielie tehnoloģiju uzņēmumi, piemēram, OpenAI, Google un Anthropic, publicē oficiālos savu robotu IP adrešu sarakstus. Jebkuru pieprasījumu ir iespējams droši verificēt, tikai salīdzinot ienākošo IP adresi ar šiem publiski pieejamajiem sarakstiem.

Tehniskais risinājums un IP adrešu pārbaude

Lai noskaidrotu, vai jūsu vietnes apmeklētājs tiešām ir tas, par ko uzdodas, ir jāveic automātiska IP adrešu salīdzināšana ar oficiālajiem avotiem. To var paveikt ar vienkāršu Python skriptu, kas ielādē pakalpojumu sniedzēju publicētos JSON failus un pārbauda, vai ienākošā IP adrese ietilpst atļautajos tīkla diapazonos.

Zemāk ir redzams vienkāršots koda piemērs, kas parāda, kā darbojas šādas pārbaudes loģika:

import ipaddress, json, urllib.request

# Oficiālais OpenAI publicētais IP adrešu saraksts
url = "https://openai.com/chatgpt-user.json"
data = json.loads(urllib.request.urlopen(url).read())

nets = []
def collect(node):
    if isinstance(node, dict):
        for v in node.values():
            collect(v)
    elif isinstance(node, list):
        for v in node:
            collect(v)
    elif isinstance(node, str):
        try:
            nets.append(ipaddress.ip_network(node, strict=False))
        except ValueError:
            pass

collect(data)

# Funkcija pārbauda, vai ienākošā IP adrese ir uzticama
def is_real(ip):
    addr = ipaddress.ip_address(ip)
    return any(addr in net for net in nets)

Šis kods ir lielisks pamats, lai izveidotu filtru savā serverī un automātiski bloķētu tos pieprasījumus, kas neiztur verifikāciju. Pilnvērtīgam risinājumam būtu nepieciešams pieslēgt arī citu pakalpojumu sniedzēju sarakstus, piemēram, Googlebot, Claude un Perplexity.

Kā rīkoties tīmekļa vietņu īpašniekiem

Lai nodrošinātu, ka jūsu tīmekļa vietne ir gan aizsargāta pret kaitīgiem skeneriem, gan gatava nākotnes meklēšanas dzinējiem, ir svarīgi regulāri veikt pilnu mājaslapas SEO auditu un analizēt servera piekļuves datus. Paļaušanās tikai uz Google Analytics vai standarta servera atskaitēm var radīt mānīgu priekšstatu par reālo situāciju.

Pirmkārt, ieteicams ieviest stingrākus drošības noteikumus servera līmenī vai izmantot tādus pakalpojumus kā Cloudflare, kas spēj automātiski identificēt un bloķēt viltotus Googlebot un citu robotu pieprasījumus. Otrkārt, regulāri pārbaudiet un atjauniniet savu robots.txt failu, norādot precīzus noteikumus tiem robotiem, kuriem atļauts indeksēt jūsu saturu.

Sīkāku informāciju un tehnisko analīzi par šo pētījumu lasiet vietnē Search Engine Journal.

Kāpēc lielākā daļa mākslīgā intelekta asistentu un Googlebot trafika ir viltota

Kāpēc nosaukums servera žurnālā ir meli

Statistikas salīdzinājums starp reālajiem un viltotajiem robotiem

Divas dažādas robotu pasaules

Tehniskais risinājums un IP adrešu pārbaude

Kā rīkoties tīmekļa vietņu īpašniekiem

Saņem nedēļas svarīgākos AI jaunumus

Citi lasītāji lasīja arī šos rakstus:

Kāpēc liela mēroga mākslīgā intelekta aģentu ieviešana pašlaik ir bīstama

Kā ASV valdības vēršanās pret Anthropic ietekmē mākslīgā intelekta ekosistēmu