Tasca #4862
tancatReconsiderar els robots degut als visualitzadors pdf en el núvol
Descripció
Tinc la sospita, per confirmar, que la consulta via mòbil distorsiona el criteri de què és un robot. En els mòbils sovint s'ofereix l'opció de visualtizar el pdf via Google Drive o altres. Si és així, qui es connecta al DDD per baixar-se el pdf no és l'adreça del mòbil, sinó del clúster de servidors de Google. Suposo de deu passar el mateix amb iPhone i el núvol d'Apple.
Es tracta, doncs, de preparar una bateria de proves, per veure quin client es descarrega efectivament el pdf i, si és el cas, eliminar-lo de la llista de robots, o de les regles per eliminar-los.
Crec que la baixada de consultes al DDD pot estar relacionat amb l'increment de visualitzacions d'aquest tipus. Segons el resultat, potser caldrà tornar a recalcular els anys anteriors.
Tasques relacionades 2 (0 obertes — 2 tancades)
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Una primera xifra del que pot suposar. Dels noms de domini amb el nom google en algun lloc del nom del servidor, en el mes de gener van haver-hi aquests accessos:
- 3194985 googleusercontent.com
- 2456093 googlebot.com
- 26185 google.com
- 65 virginmedia.net
- 6 googlefiber.net
- 1 prtc.net
- 1 in-addr.arpa
Si és certa la meva sospita, que googleusercontent.com conté dades d'usuari com per exemple visualitzacions de documents pdf a través dels seus visors al núvol (com Google Drive), això suposa un 17.8 dels accessos el mes de gener del 2018. Poca broma.
Hem d'esbrinar quins altres servidors estan fent aquesta feina: Apple i Microsoft, fonamentalment, però potser també Facebook.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
- Estat ha canviat de Creada a En curs
De moment he canviat la regla que considerava qualsevol host amb el nom google com a robot, i ara només considerarà google.com i googlebot.com.
Per tenir una primera estimació, les xifres d'accessos al mes de març són:
- Consultes: 250.777
- Descàrregues: 208.696
Com que cada dia es recalculen les de tot el mes en curs, si demà veiem una pujada d'un 15-20% confirmarà que cal continuar investigant aquest aspecte i recalcular totes les estadístiques. Aquest recàlcul també ens cal per tancar la tasca #4861.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
- S'ha afegit relacionat amb Tasca #4861: Canvis en l'ordre de les col·leccions de la pàgina inicial del DDD
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Doncs sí que augmenta, com era d'esperar.
- Consultes: 250.777 -> 310.122
- Descàrregues: 208.696 -> 258.122
Coses a fer a partir d'ara:
- Eliminar més falsos robots. De moment només he eliminat els de Google, però no sé quants més poden haver-hi. Miraré de fer més proves amb Android i, després, mirarem de fer alguna cosa amb Apple.
- Cap preparar bé un recàlcul de totes les estadístiques per fer-lo en cap de setmana comptant que refaci la llista de robots.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Aquest cap de setmana he recalculat tots els accessos anuals des del 2012 eliminant la regla que deia que googleusercontent.com és un robot. Malhauradament, han passat dues coses, una més fàcil d'explicar i una de més llarga.
- En primer lloc, per un error de càlcul meu, a mitjanit del diumenge al dilluns encara estava recalculant anys antics mentre ja es processaven les estadístiques diàries. Com que aquesta situació no estava prevista, s'ha creat una inconsistència a la base de dades i he hagut de tornar enerera. Ara mateix tornen ha haver-hi les estadístiques de dissabte. Aquesta nit es tornaran a recalcular, com sempre, totes les del mes actual i, per tant, no se n'haurà perdut cap.
- En segon lloc, resulta que eliminar la regla que googleusercontent.com és un robot no és suficient, perquè el seu comportament sovint sí que és de robot, perquè consulten el fitxer robots.txt, o perquè fan servir software típic de robots (p. ex.: Googlebot/2.1, Go-http-client/1.1, Python-urllib/2.7, Diffbot/0.1 o BomboraBot/1.0), i per tant queden classificats per altres regles. El que no he tingut temps de comprovar, per l'error primer, és fins a quin punt això afecta el resultat final. Ho deixarem per quan ho pugui reprocessar bé.
FJ Actualitzat per Ferran Jorba fa quasi 8 anys
Ja estan recalculades les estadístiques:
- De continguts, des del 2006, per la tasca #4861.
- D'accessos, recalculant els robots, des del 2010, per aquesta mateixa tasca.
Per poder comparar-ne els resultats, he deixat al DDD de proves la còpia de la base de dades d'estadístiques del 17 de març.
FJ Actualitzat per Ferran Jorba fa quasi 8 anys
Acabo de fer més proves, i el resultat fa por.
D'una banda, hem provat amb una companya del SI que des dels iPhone no hi ha opció d'utilitzar un visualtizador extern (tipus Google Drive) i, per tant, les descàrregues compten com a tal.
El problema l'hem vist amb els Android. D'una banda, si ens baixem el pdf, sí que apareix i compta, com és raonable. Però resulta que si diem d'utilitzar el visor de Google Drive, ens hem trobat que no apareix al fitxer de log. És a dir, que sembla que si en algun moment algú va utilitzar el visor de Google Drive per desar un pdf, Google ja sap que el té, utilitza la seva còpia i ni tan sols deixa rastre als logs de l'Apache de DDD.
Estic parlant d'un document que jo no havia consultat mai via Google Drive, i per tant no estava a la meva caché de Google Drive; per tant, dedueixo que algú hi va accedir abans que jo.
Això obre un interrogant molt gran sobre la veracitat de les estadístiques de descàrregues. És evident que per un usuari és molt llaminer fer clic a visualitzar els documents via visor de Google Drive, perquè el quadre de diàleg avisa que, si ho fas, Google te'n guardarà una còpia, que tindràs sempre disponible (és a dir, encara que desapareixi del lloc original). Concretament, el missatge de Google diu:
Conserva aquest fitxer
Toca la icona Desa a Drive per tenir els fitxers protegits i accessibles a Google Drive.
Clar, a Google això li interessa molt perquè, com a cercador que és, saber on fan clic els usuaris li proporciona accés a un munt de servidors que potser no trobaria en el seu sistema de rastreig estàndard via Web. Però ens fot les estadístiques enlaire.
I ara què fem?
CA Actualitzat per Cristina Azorin fa quasi 8 anys
- Data de venciment ha canviat de 31-03-2018 a 11-06-2018
- Prioritat ha canviat de Normal a Alta
Fem la consulta a la Darcy sobre si el funcionament és exactament aquest.
Decidim afegir una línia als comentaris del final de les estadístiques explicant aquest problema.
Hem de ser conscients que això provoca una disminució en el nombre de descàrregues.
FJ Actualitzat per Ferran Jorba fa més de 7 anys
- S'ha afegit relacionat amb Tasca #3471: Afegir el format d'exportació Mendeley als registres del DDD
CA Actualitzat per Cristina Azorin fa aproximadament 7 anys
- Estat ha canviat de En curs a Tancada
- Prioritat ha canviat de Alta a Normal
Tanquem la tasca perquè no està a les nostres mans donar una solució. Ho hem de tenir en compte a l'hora d'analitzar les estadístiques de descàrregues.