Projecte

General

Perfil

Accions

Tasca #4750

tancat
FJ FJ

Les estadístiques d'ús del novembre surten a zero

Tasca #4750: Les estadístiques d'ús del novembre surten a zero

Afegit per Ferran Jorba fa més de 8 anys. Actualitzat fa aproximadament 8 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Tecnologia
Temàtica prevista:
Inici:
17-11-2017
Data de venciment:
20-12-2017
Paraula clau:

Descripció

Des de l'actualització del sistema operatiu del servidor Mompou (#4749), les estadístiques d'ús del mes de novembre surten a zero.

Ex: https://ddd.uab.cat/usage.py?c=worpap&report=usage&ln=ca


Tasques relacionades 3 (0 obertes3 tancades)

relacionat amb DDD - Tasca #4749: Actualitzar els servidors de Debian 8 (Jessie) a Debian 9 (Stretch)TancadaFerran Jorba17-11-2017Accions
relacionat amb DDD - Tasca #4016: Errors en la determinació del domini de les consultesTancadaFerran Jorba12-05-201610-07-2016Accions
relacionat amb DDD - Tasca #4358: Aplicar criteris geogràfics a sota del nivell de país per les estadístiques d'úsTancadaFerran Jorba11-01-201731-12-2017Accions

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #1

  • S'ha afegit relacionat amb Tasca #4749: Actualitzar els servidors de Debian 8 (Jessie) a Debian 9 (Stretch)

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #2

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #3

  • Paraula clau s'ha establert a JR

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #4

  • S'ha afegit relacionat amb Tasca #4016: Errors en la determinació del domini de les consultes

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #5

  • Estat ha canviat de Creada a En curs
  • Prioritat ha canviat de Normal a Urgent

El problema passa en la primera fase del tractament dels logs, en el que es converteixen les adreces IP al noms (ex: 66.249.73.171 per crawl-66-249-73-171.googlebot.com). Aquesta fase és fonamental per a les fases posteriors, i en primer lloc per poder descartar els robots (googlebot.com el primer).

Tota la vida he estat utilitzant un programa anomenat jdresolve, i l'havia triat perquè és eficient, pot treballar en paral·lel, i guarda una base de dades local amb les adreces. Com que la base de dades es pot especificar, en puc guardar una per any. Fins aquí les avantatges.

L'inconvenient és que sembla un programa abandonat, del qual no se'n treuen noves versions, i com que Internet va evolucionant i ara hi ha nous tipus d'adreces, si no s'adapta, apareixen errors nous i no previstos incialment. Un ja ens va passar a la tasca #4016 que, com que va quedar resolta, ja no hi vaig pensar més. De tota manera, les incidències a Github no sembla que s'actualitzin, p. ex:

https://github.com/jdrowell/jdresolve/pull/4

I, efectivament, a can Debian tampoc no s'actualitza:

https://packages.debian.org/jdresolve

Afortunadament he trobat al menys una alternativa, que es va actualitzant i que ve a oferir les mateixes funcionalitats:

https://packages.debian.org/ip2host

Jo m'havia plantejat canviar de jdresolve a ip2host a partir de l'any que ve, perquè el format de la base de dades interna és diferent, i així començàvem de nou.

Miraré d'avaluar què és més fàcil, passar-nos a ip2host migrant la base de dades, o fent algun apanyo al jdresolve i començar amb ip2host l'any que ve, com tenia previst.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #6

Fent unes mínimes modificacions al programa jdresolve, sembla que he trobat la manera que se salti les línies del fitxer de log que li donaven problemes. Com que són poques i són totes elles a partir del novembre, espero confirmar-ho demà, quan hagi acabat de processsat els logs del novembre, i compto de continuar així fins a final d'any.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #7

Bé, sembla que aquesta actuació ha millorat alguna cosa, però els resultats del mes de novembre són encara massa baixos, per bé que estiguem al dia 20:

Una explicació podria ser que en els mesos anteriors els robots no s'haguessin comptabilitzat. Si us hi fixeu en qualsevol d'aquests, a la columna de la dreta, sota els Estats Units, hi ha moltes entrades de googlebot.com, del msn.com o de amazonaws.com.

Tinc motius per pensar que els robots ho s'haguéssin comptabilitzat en el(s) mes(os) anterior(s). I és doble: d'una banda, perquè degut a les incidències anteriors (#4016 i #4749), i perquè darrerament la resolució dels noms estava trigant molt, he estat fent algunes accions per accelerar tot el tractament dels logs. Alguna d'elles pot ser-ne la causa. De fet, no hauria d'aparèixer cap d'aquests robots a la columna de la dreta.

Per tant, crec que val la pena fer tot un recàlcul de l'any actual. Això ho faig automàticament cada dia 1 de cada mes, però miraré de fer-ho en els propers dies.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #8

Després d'haver reprocessat tot el 2017, les xifres han baixat en excés, més que les del 2016. Tampoc no és això, diria. Repassaré quins robots detecta, que potser alguns no ho són.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #9

Ferran Jorba va escriure:

Després d'haver reprocessat tot el 2017, les xifres han baixat en excés, més que les del 2016.

Tornant-m'ho a mirar, és que potser el que passa és que el 2016 va pujar massa (de vegades un 40%), i hi ha robots que ara s'estan comptabilitzant i l'any passat no. Hmmm... Em problema és que fer aquestes comprovacions i recàlculs poden portar tot un dia, i no és gens fàcil fer-los al DDD de proves, perquè la base de dades no és la mateixa i, per tant, les assignacions de registres a col·leccions no funcionen igual. I tampoc, per tan, les del DDD en general, que és la suma de totes.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #10

Com a segon criteri, he convertit la base de dades d'adreces del jdresolve per la d'ip2host, i deixaré que d'avui a demà torni a reprocessar el mes de novembre. Miraré de reprocessar alguna part del 2017 per comprovar si els resultats són diferents a resulta de no haver resolt bé les adreces IP.

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #11

  • Data de venciment s'ha establert a 20-12-2017

Cal recalcular ara el 2016 que pensem que tenen molts robots que no s'ha detectat.

Al Nadal recalcularem totes les estadístiques modificant l'àmbit geogràfic, per començar així el 2017. Afectarà ala màquina durant un parell de dies.

Establim que cal afegir una nota en el text que ara apareix a sota de les estadístiques dient que "periòdicament el sistema de detecció de robots pot fer que es modifiquin algunes de les xifres donades a les estadístiques"

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #12

  • S'ha afegit relacionat amb Tasca #4358: Aplicar criteris geogràfics a sota del nivell de país per les estadístiques d'ús

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #13

Estic fent un repàs sistemàtic dels logs del 2017 i del 2016 (des del maig, que és quan vam canviar de servidors), per repassar si hi ha hagut algun problema relacionat amb no comptabilitzar bé els dos fitxers de log, el de l'http i el del https.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #14

Aquest cap de setmana he tornat a reprocessar tot el 2016, inclosa la detecció de robots, la confirmació que, amb els dos servidors web (http i https) no es perdessin ni es dupliquessin entrades, i he volgut comprovar també si el programa ip2host resolia gaires adreces IP que jdresolve no resolia. És a dir, un repàs tant sistemàtic com he estast capaç de fer. Els resultats han estat:

  • Partim de poc més de 160 milions d'entrades als fitxers de log del 2016.
  • El nombre d'adreces IP resoltes no passa de la dotzena, i afecta a nomes 186 línies de log.
  • El nombre de robots detectats passa de 131.222 a 131.405.

Que la detecció de robots funciona bé ho demostra que els mesos de juliol al setembre hi va haver-hi un allau d'accessos que va fer que els fitxers d'aquells tres mesos passessin del voltant dels 4 GB mensuals als 37 GB de setembre, i amb tot i això, mirant les estadístiques de consultes i descàrregues d'aquests tres mesos, les xifres són molt comparables als de la resta de l'any i als dels anys anteriors:

ddd@mompou:~/var/log$ ls -lvh access_a2016m*.log
-r--r--r-- 1 ddd users 3.8G Feb  1  2016 access_a2016m1_resolved.log
-r--r--r-- 1 ddd users 4.9G Mar  1  2016 access_a2016m2_resolved.log
-r--r--r-- 1 ddd users 3.9G Apr  1  2016 access_a2016m3_resolved.log
-r--r--r-- 1 ddd users 4.2G May 31  2016 access_a2016m4_resolved.log
-r--r--r-- 1 ddd users 4.5G Jun  1  2016 access_a2016m5_resolved.log
-r--r--r-- 1 ddd users 7.1G Jul  1  2016 access_a2016m6_resolved.log
-r--r--r-- 1 ddd users  24G Aug  1  2016 access_a2016m7_resolved.log
-r--r--r-- 1 ddd users  14G Sep  1  2016 access_a2016m8_resolved.log
-r--r--r-- 1 ddd users  37G Oct  1  2016 access_a2016m9_resolved.log
-r--r--r-- 1 ddd users 4.0G Nov  1  2016 access_a2016m10_resolved.log
-r--r--r-- 1 ddd users 3.5G Dec  1  2016 access_a2016m11_resolved.log
-r--r--r-- 1 ddd users 2.7G Jan  1  2017 access_a2016m12_resolved.log

Amb tot això, la diferència de resultats és pràcticament irrellevant. Per confirmar-ho, he agafat una còpia de la base de dades d'estadístiques tal com estava el dia 20, abans de qualsevol tractament, i l'he fet accessible des del DDD de proves. Per agafar la dada més significativa, que serien tots els accessos del DDD, varien de poc més de mil entrades:

Ja no sé què més mirar. Si no surten noves idees, tancaré la tasca aviat.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #15

  • Estat ha canviat de En curs a Tancada
  • Prioritat ha canviat de Urgent a Normal

Doncs com que no n'han sortit, d'idees noves, tanco.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #16

Cristina Azorin va escriure:

Establim que cal afegir una nota en el text que ara apareix a sota de les estadístiques dient que "periòdicament el sistema de detecció de robots pot fer que es modifiquin algunes de les xifres donades a les estadístiques"

Ja hi he afegit la nota he canviat l'ordre de la frase, perquè quan ho traduia a l'anglès he vist que només quedava bé posant primer el subjecte, i he cregut que la millora era aplicable també al català i al castellà:

  • El sistema de detecció de robots que executem periòdicament pot fer que es modifiquin algunes de les xifres donades a les estadístiques.
  • El sistema de detección de robots que ejecutamos periódicamente puede hacer que se modifiquen algunas de les cifras dadas en las estadísticas.
  • The robots detection system that we run periodically may cause changes in the numbers given in those statistics.

Si no hi esteu d'acord, òbviament, ja ho canviaré.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #17

  • Paraula clau s'ha suprimit (JR)

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #18

Aprofito per deixar constància que (finalment!) he pogut eliminar uns robots coreans del 2017 que distorsionaven d'una manera horrorosa, per exemple, la col·lecció Gelabertó de mapes. Ara ja no hi són:

https://ddd.uab.cat/usage.py?c=mapesgelaberto&report=usage&ln=ca

Accions

També disponible a: PDF Atom