Projecte

General

Perfil

Accions

Incidència #6514

tancat
FJ FJ

Sobrecàrrega pel robot de petalsearch

Incidència #6514: Sobrecàrrega pel robot de petalsearch

Afegit per Ferran Jorba fa quasi 5 anys. Actualitzat fa més d'un any.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Tecnologia
Inici:
31-05-2021
Data de venciment:
30-07-2024
Paraula clau:

Descripció

Des de fa una setmana o 10 dies el DDD té una sobrecàrrega degut a molts accessos provinents de la Xina. No semblava ben bé un atac, i fins avui no m'hi he entretingut prou per saber-ne la causa.

Finalment ha resultat ser accessos indiscriminats, en paral·lel i sense aturador d'un (nou) robot anomenat PetalBot. Una mostra del seu rastre seria aquest:

petalbot-114-119-137-143.petalsearch.com - - [31/May/2021:16:53:44 +0200] "GET /search?cc=artpub&f=issue&p=01049933_a2005v12n2&rg=100&sf=fpage&so=a&ln=es HTTP/1.1" 403 6169 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)" 
petalbot-114-119-146-70.petalsearch.com - - [31/May/2021:16:53:44 +0200] "GET /record/44496/ HTTP/1.1" 403 6169 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)" 
petalbot-114-119-160-248.petalsearch.com - - [31/May/2021:16:53:45 +0200] "GET /search?sc=1&p=Ramos%2C%2BJoan%2BRafael&ln=ca&f=author HTTP/1.1" 403 6169 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)" 
petalbot-114-119-158-144.petalsearch.com - - [31/May/2021:16:53:45 +0200] "GET /pub/docins/2016/236816/enqsattituabpdresah_a2018.ico HTTP/1.1" 403 6169 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)" 
petalbot-114-119-157-26.petalsearch.com - - [31/May/2021:16:53:45 +0200] "GET /search?sc=1&p=Arrate%2C%2BJes%C3%BAs%2BAngel&ln=en&f=author HTTP/1.1" 403 6169 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)" 
petalbot-114-119-157-199.petalsearch.com - - [31/May/2021:16:53:46 +0200] "GET /search?f=author&p=Hern%C3%A1ndez%20Silva%2C%20C.&sc=1&ln=en HTTP/1.1" 403 6169 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)" 

Es tracta d'auturar-lo, doncs.


Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #8600: Impedir que els robots facin cerques al DDDTancadaFerran Jorba30-07-202430-07-2024Accions

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #1

  • Estat ha canviat de Creada a Tancada

Despres d'unes quantes consultes a can Google i diferents proves, al final ha funcionat aquesta solució. Es tracta d'afegir-hi aquestes tres línies al fitxer de configuració d'Apache (~/invenio/etc/apache/invenio-apache-vhost-ssl.conf):

   <If "%{HTTP_USER_AGENT} =~ /petalbot/">
      Require all denied
   </If>

https://httpd.apache.org/docs/2.4/howto/access.html#env

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #2

Avui he provat d'acotar la barrera només a quan el robot fa cerques, de manera que si es troba pdfs o registres referenciats des d'altres llocs sí que els pugui agafar, però no navegar pel DDD. Sembla que funciona correctament.

<Location /search>
  <If "%{HTTP_USER_AGENT} =~ /petalbot/">
      Require all denied
  </If>
</Location>

FJ Actualitzat per Ferran Jorba fa més d'un any Accions #3

  • S'ha afegit relacionat amb Tasca #8600: Impedir que els robots facin cerques al DDD

CA Actualitzat per Cristina Azorin fa més d'un any Accions #4

  • Data de venciment s'ha establert a 30-07-2024
  • Prioritat ha canviat de Alta a Normal
  • Paraula clau s'ha establert a NCR

CA Actualitzat per Cristina Azorin fa més d'un any Accions #5

  • Paraula clau s'ha suprimit (NCR)
Accions

També disponible a: PDF Atom