MemblokirPerayapAI
Perusahaan AI seperti OpenAI mengoperasikan robot perayap web (crawler bot) untuk mmerayap situs-situs di internet untuk kemudian datanya digunakan untuk melatih LLM seperti GPT atau Google Gemini. Pemilik situs yang tidak ingin isi situs mereka dirayap oleh robot ini dapat menggunakan robots.txt
untuk menjaga agar robot-robot perayap ini tidak mendekat. Robot perayap yang baik umumnya mematuhi robots.txt
, tetapi tidak menutup kemungkinan ada robot perayap buruk yang dengan sengaja mengabaikan robots.txt
. Dengan kata lain, tidak ada cara untuk menegakkan aturan robots.txt
.
Apa itu robots.txt
Menurut Wikipedia, robots.txt
adalah file yang digunakan untuk mengimplementasikan Protokol Pengecualian Robot atau Robots Exclusion Protocol, sebuah standar yang digunakan oleh situs web untuk menunjukkan kepada perayap web yang berkunjung dan robot web lainnya, bagian mana dari situs web yang boleh mereka kunjungi.
Sintaks
Robots.txt bekerja dengan menempatkan file bernama robots.txt
di direktori yang dapat diakses oleh peladen web. File ini memiliki sintaks sebagai berikut:
User-agent: {BOT-NAME-HERE} Allow: {PATH}
atau
User-agent: {BOT-NAME-HERE} Disallow: {PATH}
Memblokir perayap web AI
Sintaks robots.txt
berikut akan memblokir robot AI dari semua bagian situs web tanpa terkecuali.
OpenAI
User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: /
Google Gemini
User-agent: Google-Extended Disallow: /
Common Crawl
User-agent: CCBot Disallow: /
Perplexity AI
User-agent: PerplexityBot Disallow: /
Lebih lanjut, sintaks-sintaks untuk robots.txt
di atas dapat digabungkan menjadi satu seperti berikut:
## OpenAI ChatGPT bot User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / ## Google Gemini bot User-agent: Google-Extended Disallow: / ## Common Crawl User-agent: CCBot Disallow: / ## Perplexity AI User-agent: PerplexityBot Disallow: /
Perayap lain
Daftar perayap web lainnya yang terafiliasi dengan perusahaan AI dapat dilihat di https://darkvisitors.com/.