Projecte

General

Perfil

Accions

Tasca #3498

tancat
FJ FJ

Aturar o frenar els robots de Baidu

Tasca #3498: Aturar o frenar els robots de Baidu

Afegit per Ferran Jorba fa quasi 11 anys. Actualitzat fa quasi 11 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
-
Inici:
16-06-2015
Data de venciment:
Paraula clau:

Descripció

A partir del divendres 12 de juny del 2015, els robots de Baidu (Baiduspider) van tornar a navegar lliurement per tot el DDD sense aturador. En el seu moment, fa alguns anys, ja ho havien fet, i vam trobar la manera de moderar el seu comportament a partir d'una regla del fitxer robots.txt que feia:

User-agent: Baiduspider
Disallow: /search

Aquesta regla permetia que Baidu es pogués descarregar els documents (pdfs, jpegs) però no navegués lliurement pel catàleg (Invenio) a base de visitar tots els links del DDD, i per tant, sobresaturar la base de dades i, per tant tot el sistema. Això provoca lentitut del sistema i reinicis del servidor Apache quan sobrepassa el límit de sessions preestablertes.

Internet és ple de missatges d'ajuda d'administradors que s'han trobat amb situacions iguals que la nostra. I des de fa molts anys. Sabem, per tant, que Baidu no fa gaire cas del fitxer robots.txt, malgrat que diu que sí.

Cal trobar una alternativa més dràstica per frenar Baidu.

Accions

També disponible a: PDF Atom