Tasca #2913
tancatRepassar la generació de les estadístiques
Descripció
Hem detectat que les estadístiques globals dels més consultats per col·lecció no surten correctament, per exemple:
- https://ddd.uab.cat/usage.py?c=facbiocienciestfg&report=max
Cal veure si s'estan fent bé tots els processos de càlcul.
TF Actualitzat per Tomas Fabregat fa més de 11 anys
En algunes col·leccions no es pot saber quin són els més consultats. Exemple: https://ddd.uab.cat/collection/icta
Missatge d'error:
El sistema ha trobat un error mentre gestionava la vostra petició.
Els administradors del sistema han estat avisats.
En cas de dubte, poseu-vos en contacte amb ddd.bib@uab.cat
TF Actualitzat per Tomas Fabregat fa més de 11 anys
No se si és un error o bé un misteri informàtic. Com s'expliquen aquestes dades relatives al més consultat i la coincidència entre consultes i descàrregues?
https://ddd.uab.cat/usage.py?c=ddd&report=max
https://ddd.uab.cat/record/103201/usage
Fa malpensar molt de les estadístiques, no?
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Tomas Fabregat va escriure:
No se si és un error o bé un misteri informàtic. Com s'expliquen aquestes dades relatives al més consultat i la coincidència entre consultes i descàrregues?
https://ddd.uab.cat/usage.py?c=ddd&report=max
https://ddd.uab.cat/record/103201/usage
En aquest cas, jo diria que l'explicació és clara: els mexicans consulten el PDF perquè l'han trobat via Google o perquè en alguna web apunta directament al PDF (consulta=descàrrega), passant olímpicament del registre bibliogràfic del DDD. Donada la temàtica, no m'extranya gens.
Fa malpensar molt de les estadístiques, no?
Ja va bé malpensar, ja. En tot cas, va bé repassar que siguin coherents. Gràcies per fixar-t'hi.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Tomas Fabregat va escriure:
En algunes col·leccions no es pot saber quin són els més consultats. Exemple: https://ddd.uab.cat/collection/icta
Missatge d'error:
M'ho miraré, gràcies per avisar.
TF Actualitzat per Tomas Fabregat fa més de 11 anys
No creieu que és una llàstima que aquests milers de documents descarregats no donin cap pista de qui és el proveïdor, el link permament i la data de tramesa al repositori? Des del meu punt de vista es perd identitat corportativa i es desvaloritza la feina feta. Si hagués de proposar una solució optaria pel model ArXiv, que d'això en saben molt. Aquí en teniu un exemple: http://arxiv.org/pdf/1407.0178.pdf, on a la primera pàgina s'inclou la vinculació amb el repositori d'origen. Suggeriria que els pdfs del DDD incloessin com a mínim les dades següents:
Nom repositori: DDD-UAB
Nom col·lecció
link permament al registre mare
data de tramesa
Ja em direu,
Tomàs
VA Actualitzat per Vicenc Allue fa més de 11 anys
Estic d'acord amb tu Tomàs.
Potser no tant "llampant" com a arxiv però alguna sol·lució caldria trobar per identificar la procedència i traçabilitat del document final.
No se si és viable però estaria be valorar si informàticament es pogués generar una instrucció amb les dades d'origen del document. Potser això seria més factible si el pdf es generés un cop demanada la descàrrega i no abans. Aqui si que no veig que sigui possible tal com ho tenim muntat.
Vicenç
CA Actualitzat per Cristina Azorin fa més de 11 anys
Tomàs,
penso que el tema de la identificació dels pdfs no té a veure amb el tema de les estadístiques i que tampoc afecta al Ferran (o en tot cas, només si decidim alguna implementació tecnològica), així que penso que si vols debatre'l millor fer una tasca nova a docència i recerca.
Així de cop, a mi, se m'acudeixen dos problemes:
1. hem de manipular un pdf??
2. quina és la procedència original? què fem amb les revistes UAB, Recercat, webs d'editors...?
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Sí, estic amb la Cristina que són dos temes que no estan relacionats. Els PDFs d'ArXiv, d'altra banda, diria que els generen en el propi sistema a partir del fitxer TeX o LaTeX. Per exemple, si mires les propietats d'aquest document, diuen això:
Title: Subject: Keywords: Author: Creator: LaTeX with hyperref package Producer: dvips + GPL Ghostscript GIT PRERELEASE 9.08 CreationDate: Tue Jul 1 20:57:30 2014 ModDate: Tue Jul 1 20:57:30 2014 Tagged: no Pages: 20 Encrypted: no Page size: 595 x 842 pts (A4) File size: 956897 bytes Optimized: no PDF version: 1.4
Si nosaltres manipulessim els PDFs, no serien els originals, a part que molt probablement no estem autoritzats a fer-ho, mai no podriem comparar que sigun idèntics a les altres còpies que ens serveixen de rèpliques autoritzades (Racó, ReDI, Recercat, etc).
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Estat ha canviat de Creada a En curs
Aprofito la vostra petició per corregir alguns aspectes de com es calculen les estadístiques, i fer automàtiques algunes de les tasques de neteja i recàlcul que igualment he de fer de manera manualment al final d'any per la Memòria del Servei de Biblioteques. Estic treballant-hi al DDD de proves.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
He deixat preparat els nous scripts perque s'executin aquesta nit. No crec que es vegin gaire les diferències, perquè quan es notarà de debò serà el dia 1 del proper mes (agost), quan, com cada dia 1 de cada mes, el sistema s'hi estarà una bona estona perquè recalcularà des del començament d'any totes les estadístiques, incloent-hi (i eliminant, si cal), els comptadors dels robots que s'hagin detectat al llarg de l'any en curs.
Potser en els propers dies miraré de forçar un recàlcul com si fos el dia 1, per veure'n el resultat abans d'anar de vacances.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Acabo d'afegir una nova detecció automàtica de robots, que consisteix en que si una màquina es descarrega més de 200 vegades un mateix document, l'afegeix a la llista.
La detecció té en compte que si un registre té més d'un document, es divideix la llista de hits pel número de documents, perquè si no comptaria com a robot, per exemple, la gent que es baixa tots els números d'una revista de més de 200 números.
Ho he provat a mà, però preferixo que s'executi completament aquesta nit i veure el resultat a mà. El meu objectiu és que el sistema s'autocorregeixi i elimini els robots (o màquines infectades) en pocs dies, o com a molt al dia 1 del mes següent.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Aquesta nit el nou sistema ha detectat i afegit 84 nous robots a la llista. Entre els quals hi ha, pel que he vist, el causant de tantíssimes consultes des de Mèxic a https://ddd.uab.cat/record/103201/usage. Avui són 380.776; demà haurien de baixar a un número molt més raonable.
També he deixat per aquest cap de setmana el recàlcul anual que inicialment tenia previst que es fes cada dia 1. En principi, per dilluns hauríem de veure números més raonables per a https://ddd.uab.cat/usage.py?c=ddd&report=max, i no hauría de donar error la consulta per https://ddd.uab.cat/usage.py?c=icta&report=max.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Després de uns quants processos iteratius de netejes automàtiques i recàlculs anuals, l'estadística dels documents més descarregats de l'ICTA ja no dóna error:
http://ddd.uab.cat/usage.py?c=icta&report=max
El dubte que tinc ara és un altre. Si us hi fixeu, només tenim estadístiques d'un any (2014), perquè la col·lecció http://ddd.uab.cat/collection/icta s'ha creat aquest any 2014. Com que una de les coses que he arreglat és que cada dia 1 de mes (i, excepcionalment, també aquest cap de setmana) es recalculin totes les estadístiques de l'any, encara que la creació de la col·lecció s'hagués fet el mes de maig, tenim les estadístiques de tot l'any.
Però el número de descàrregues del document més descarregat (Participación cualitativa...) de l'any 2014 és 171, mentre que el global és 1.640. Fa estrany. He investigat el perquè i resulta que és un article publicat a Documents d'Anàlisi Geogràfica l'any 2003, i al que se l'ha afegit a la col·lecció ICTA en algun moment d'aquest any 2014, mentre que el comptador total de descàrregues compta des de que aquest document existeix al DDD.
Per solucionar aquesta contradicció, se m'acudeixen unes quantes solucions.
- No fer res.
- Ignorar els comptadors d'abans que aquest registre formés part de la col·lecció ICTA.
- Recalcular els comptadors de pertinència dels registres a les seves col·leccions retrospectivament des del començament del DDD.
El cost del primer és zero per nosaltres, però pot donar incredulitat si algú s'hi fixa. El segon, crearà una contradicció si veiem que aquest article té X consultes si el mires des de la col·lecció ICTA però Y des de la col·leccció Documents d'Anàlisi Geogràfica. El tercer canviarà contínuament els comptadors ja publicats prèviaments a llocs com la Memòria del Servei de Bibliotques o a altres llocs.
No sé què fer. Què n'opineu?
TF Actualitzat per Tomas Fabregat fa més de 11 anys
Per mi la solució és clara: no fer res. El que té valor són els recomptes globals, independentment de les col·leccions creades a posteriori. La incredulitat que comentes es pot explicar i crec que s'entèn, i això és el que importa.
Tenim les dades globals de consulta i els documents més consultats. Amb això en tenim prou, penso, altres solucions no aportarien més claredat, penso.
T.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Ho deixo sense fer res, doncs, tal com proposa el Tomàs?
FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys
- Estat ha canviat de En curs a Tancada
Dono per tancada la tasca. Si no és correcte, torneu-la a obrir.