MemblokirPerayapAI

Perusahaan AI seperti OpenAI mengoperasikan robot perayap web (crawler bot) untuk mmerayap situs-situs di internet untuk kemudian datanya digunakan untuk melatih LLM seperti GPT atau Google Gemini. Pemilik situs yang tidak ingin isi situs mereka dirayap oleh robot ini dapat menggunakan robots.txt untuk menjaga agar robot-robot perayap ini tidak mendekat. Robot perayap yang baik umumnya mematuhi robots.txt, tetapi tidak menutup kemungkinan ada robot perayap buruk yang dengan sengaja mengabaikan robots.txt. Dengan kata lain, tidak ada cara untuk menegakkan aturan robots.txt.

Apa itu robots.txt

Menurut Wikipedia, robots.txt adalah file yang digunakan untuk mengimplementasikan Protokol Pengecualian Robot atau Robots Exclusion Protocol, sebuah standar yang digunakan oleh situs web untuk menunjukkan kepada perayap web yang berkunjung dan robot web lainnya, bagian mana dari situs web yang boleh mereka kunjungi.

Sintaks

Robots.txt bekerja dengan menempatkan file bernama robots.txt di direktori yang dapat diakses oleh peladen web. File ini memiliki sintaks sebagai berikut:

 User-agent: {BOT-NAME-HERE}
 Allow: {PATH}

atau

 User-agent: {BOT-NAME-HERE}
 Disallow: {PATH}

Memblokir perayap web AI

Sintaks robots.txt berikut akan memblokir robot AI dari semua bagian situs web tanpa terkecuali.

OpenAI

 User-agent: GPTBot
 Disallow: /
 User-agent: ChatGPT-User
 Disallow: /

Google Gemini

 User-agent: Google-Extended
 Disallow: /

Common Crawl

 User-agent: CCBot
 Disallow: /

Perplexity AI

 User-agent: PerplexityBot
 Disallow: /

Lebih lanjut, sintaks-sintaks untuk robots.txt di atas dapat digabungkan menjadi satu seperti berikut:

 ## OpenAI ChatGPT bot
 User-agent: GPTBot
 Disallow: /
 User-agent: ChatGPT-User
 Disallow: /
 ## Google Gemini bot
 User-agent: Google-Extended
 Disallow: /
 ## Common Crawl
 User-agent: CCBot
 Disallow: /
 ## Perplexity AI
 User-agent: PerplexityBot
 Disallow: /

Perayap lain

Daftar perayap web lainnya yang terafiliasi dengan perusahaan AI dapat dilihat di https://darkvisitors.com/.

Referensi

  1. https://www.cyberciti.biz/web-developer/block-openai-bard-bing-ai-crawler-bots-using-robots-txt-file/
  2. Situs yang memuat daftar user agent perayap web AI