Voy a poner una lista detallada de bots que tengo bloqueados en el fichero .htaccess de mi servidor Apache y que está situado en el raiz del dominio. La lista de spider, crawlers o rastreadores molestos están actualizados a septiembre de 2025.
Iré actualizando la lista con el tiempo:
Quote::
<IfModule mod_rewrite.c>
RewriteEngine On
# bloqueo de spiders
RewriteCond %{HTTP_USER_AGENT} ^.*(amazonbot|Bytedance|Bytespider|PetalBot|UptimeRobot|seocompany|LieBaoFast|SEOkicks|Uptimebot|Cliqzbot|ssearch_bot|domaincrawler|spot|DigExt|Sogou|MegaIndex|majestic|80legs|SISTRIX|HTTrack|Semrush|MJ12|Ezooms|CCBot|TalkTalk|Ahrefs|BLEXBot).*$ [NC]
RewriteRule .* - [F,L]
RewriteCond %{HTTP_USER_AGENT} ^.*(Imagesift|SeekportBot|seekport|dataforseo|turnitin|Barkrowler|DotBot|Mediatoolkitbot|iboubot|Aliyun).*$ [NC]
RewriteRule .* - [F,L]
RewriteCond %{HTTP_USER_AGENT} (?:ahrefsBot|Meta-ExternalAgent) [NC]
RewriteRule ^ - [F,L]
Estos bots a mi no aportan ningún tráfico y sustraen numerosos recursos así que, yo personalmente los corto en seco.
Pero es posible que a alguna web le sean útiles, así que debéis pensarlo (por ejemplo amazonbot). Si no tenéis ni idea, mejor meterlo tal cual.
Es importante que tengáis el modulo rewrite a on, como pone al comienzo de mi código.
RewriteEngine On