Voy a poner una lista detallada de bots que tengo bloqueados en el fichero .htaccess de mi servidor Apache y que está situado en el raiz del dominio. La lista de spider, crawlers o rastreadores molestos están actualizados a septiembre de 2025.
Para detectar si es o no un Bot, uso el "HTTP_USER_AGENT" Agente de Usuario de su navegador.
Iré actualizando la lista con el tiempo:
Quote::
	 <IfModule mod_rewrite.c>
  RewriteEngine On
  
# bloqueo de spiders
RewriteCond %{HTTP_USER_AGENT} ^.*(amazonbot|Bytedance|Bytespider|PetalBot|UptimeRobot|seocompany|LieBaoFast|SEOkicks|Uptimebot|Cliqzbot|ssearch_bot|domaincrawler|spot|DigExt|Sogou|MegaIndex|majestic|80legs|SISTRIX|HTTrack|Semrush|MJ12|Ezooms|CCBot|TalkTalk|Ahrefs|BLEXBot).*$ [NC]
RewriteRule .* - [F,L]
RewriteCond %{HTTP_USER_AGENT} ^.*(Imagesift|SeekportBot|seekport|dataforseo|turnitin|Barkrowler|DotBot|Mediatoolkitbot|iboubot|Aliyun).*$ [NC]
RewriteRule .* - [F,L]
RewriteCond %{HTTP_USER_AGENT} (?:ahrefsBot|Meta-ExternalAgent) [NC]
RewriteRule ^ - [F,L] 
Estos bots a mi no aportan ningún tráfico y sustraen numerosos recursos así que, yo personalmente los corto en seco.
Pero es posible que a alguna web le sean útiles, así que debéis pensarlo (por ejemplo amazonbot). Si no tenéis ni idea, mejor meterlo tal cual.
Es importante que tengáis el modulo rewrite a on, como pone al comienzo de mi código.
RewriteEngine On
Este bloqueo no funciona con los bots chinos que no se anuncian e intentan sustraer tus contenidos de forma disimulada. Pero para eso tenemos otro post: 
Como bloquear usuarios chinos en tu web