Photo by Joshua Woroniecki on Unsplash
Peneliti Cloudflare Mengklaim Perplexity Tetap Memindai Situs Web Meskipun Adanya Blok Bot AI
Para peneliti dari penyedia infrastruktur internet, Cloudflare, mengklaim bahwa sistem AI Perplexity telah melakukan scraping konten dari situs web tanpa izin, bahkan ketika penerbit telah menerapkan pemblokiran bot AI.
Terburu-buru? Berikut ini adalah fakta-fakta singkatnya:
- Cloudflare mengklaim bahwa Perplexity telah melakukan scraping konten dari situs web tanpa izin.
- Peneliti mengkonfirmasi perilaku “stealth crawling” Perplexity bahkan ketika penerbit menerapkan blok bot AI.
- Seorang juru bicara dari Perplexity menyebut laporan Cloudflare sebagai “pencitraan publik.”
Menurut laporan yang dibagikan oleh Cloudflare pada hari Senin, Perplexity menjelajah situs web menggunakan user agent defaultnya dan mengganti identitasnya untuk menghindari blokade tersebut. Perilaku “penjelajahan sembunyi-sembunyi” ini telah dikonfirmasi oleh para ahli Cloudflare.
“Kami melihat bukti berkelanjutan bahwa Perplexity terus-menerus memodifikasi agen pengguna mereka dan mengubah ASNs sumber mereka untuk menyembunyikan aktivitas merayapi mereka, serta mengabaikan — atau terkadang gagal untuk bahkan mengambil — file robots.txt,” tulis para peneliti.
Crawler diharapkan untuk transparan, menyatakan tujuan mereka dengan jelas, dan menghormati preferensi situs web, tetapi peneliti mengklaim bahwa Perplexity belum mengikuti prinsip-prinsip kepercayaan ini. Kesimpulan ini dicapai setelah penyelidikan yang dipicu oleh keluhan pelanggan.
“Kami menerima keluhan dari pelanggan yang telah melarang aktivitas crawling Perplexity di file robots.txt mereka dan juga membuat aturan WAF untuk secara khusus memblokir kedua crawler yang dideklarasikan Perplexity: PerplexityBot dan Perplexity-User,” tulis peneliti. “Pelanggan ini memberi tahu kami bahwa Perplexity masih bisa mengakses konten mereka bahkan ketika mereka melihat bot-bottonya berhasil diblokir.”
Peneliti Cloudflare mengatakan mereka telah memverifikasi klaim ini dengan mereplikasi blok-blok tersebut dan melakukan berbagai tes untuk mengamati perilaku crawler. Dalam satu tes, mereka membuat domain baru yang belum terindeks dan menyertakan file robots.txt untuk memblokir “bot yang menghargai”. Kemudian, mereka meminta Perplexity informasi khusus tentang domain-domain yang dibatasi dan menemukan bahwa mesin jawaban yang ditenagai AI masih memberikan detail dan informasi akurat tentang situs web tersebut.
“Respons ini tak terduga, karena kami telah mengambil semua tindakan pencegahan yang diperlukan untuk mencegah data ini dapat diambil oleh crawler mereka,” tambah para peneliti.
Seorang juru bicara dari Perplexity, Jesse Dwyer, menyebut penelitian ini sebagai “aksi publisitas” dalam sebuah pernyataan untuk The Verge. Dwyer menambahkan bahwa ada “kesalahpahaman” dalam laporan Cloudflare.
Cloudflare telah mengembangkan berbagai alat untuk membantu penerbit mencegah penjelajahan AI yang tidak sah. Pada bulan Maret, Cloudflare merilis “AI Labyrinth,” sebuah alat yang mengarahkan penjelajah yang tidak sah ke dalam labirin konten yang dihasilkan oleh AI. Bulan lalu, mereka meluncurkan “Pay Per Crawl,” sebuah sistem untuk mengenakan biaya pada bot AI yang mengakses konten penerbit.