Projecte

General

Perfil

Accions

Tasca #2913

tancat
CA FJ

Repassar la generació de les estadístiques

Tasca #2913: Repassar la generació de les estadístiques

Afegit per Cristina Azorin fa quasi 12 anys. Actualitzat fa aproximadament 11 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
-
Temàtica prevista:
Inici:
29-05-2014
Data de venciment:
Paraula clau:

Descripció

Hem detectat que les estadístiques globals dels més consultats per col·lecció no surten correctament, per exemple:

- https://ddd.uab.cat/usage.py?c=facbiocienciestfg&report=max

Cal veure si s'estan fent bé tots els processos de càlcul.

TF Actualitzat per Tomas Fabregat fa més de 11 anys Accions #1

En algunes col·leccions no es pot saber quin són els més consultats. Exemple: https://ddd.uab.cat/collection/icta

Missatge d'error:

El sistema ha trobat un error mentre gestionava la vostra petició.

Els administradors del sistema han estat avisats.

En cas de dubte, poseu-vos en contacte amb

TF Actualitzat per Tomas Fabregat fa més de 11 anys Accions #2

No se si és un error o bé un misteri informàtic. Com s'expliquen aquestes dades relatives al més consultat i la coincidència entre consultes i descàrregues?

https://ddd.uab.cat/usage.py?c=ddd&report=max
https://ddd.uab.cat/record/103201/usage

Fa malpensar molt de les estadístiques, no?

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #3

Tomas Fabregat va escriure:

No se si és un error o bé un misteri informàtic. Com s'expliquen aquestes dades relatives al més consultat i la coincidència entre consultes i descàrregues?

https://ddd.uab.cat/usage.py?c=ddd&report=max
https://ddd.uab.cat/record/103201/usage

En aquest cas, jo diria que l'explicació és clara: els mexicans consulten el PDF perquè l'han trobat via Google o perquè en alguna web apunta directament al PDF (consulta=descàrrega), passant olímpicament del registre bibliogràfic del DDD. Donada la temàtica, no m'extranya gens.

Fa malpensar molt de les estadístiques, no?

Ja va bé malpensar, ja. En tot cas, va bé repassar que siguin coherents. Gràcies per fixar-t'hi.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #4

Tomas Fabregat va escriure:

En algunes col·leccions no es pot saber quin són els més consultats. Exemple: https://ddd.uab.cat/collection/icta

Missatge d'error:

M'ho miraré, gràcies per avisar.

TF Actualitzat per Tomas Fabregat fa més de 11 anys Accions #5

No creieu que és una llàstima que aquests milers de documents descarregats no donin cap pista de qui és el proveïdor, el link permament i la data de tramesa al repositori? Des del meu punt de vista es perd identitat corportativa i es desvaloritza la feina feta. Si hagués de proposar una solució optaria pel model ArXiv, que d'això en saben molt. Aquí en teniu un exemple: http://arxiv.org/pdf/1407.0178.pdf, on a la primera pàgina s'inclou la vinculació amb el repositori d'origen. Suggeriria que els pdfs del DDD incloessin com a mínim les dades següents:

Nom repositori: DDD-UAB
Nom col·lecció
link permament al registre mare
data de tramesa

Ja em direu,

Tomàs

VA Actualitzat per Vicenc Allue fa més de 11 anys Accions #6

Estic d'acord amb tu Tomàs.

Potser no tant "llampant" com a arxiv però alguna sol·lució caldria trobar per identificar la procedència i traçabilitat del document final.

No se si és viable però estaria be valorar si informàticament es pogués generar una instrucció amb les dades d'origen del document. Potser això seria més factible si el pdf es generés un cop demanada la descàrrega i no abans. Aqui si que no veig que sigui possible tal com ho tenim muntat.

Vicenç

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #7

Tomàs,
penso que el tema de la identificació dels pdfs no té a veure amb el tema de les estadístiques i que tampoc afecta al Ferran (o en tot cas, només si decidim alguna implementació tecnològica), així que penso que si vols debatre'l millor fer una tasca nova a docència i recerca.

Així de cop, a mi, se m'acudeixen dos problemes:
1. hem de manipular un pdf??
2. quina és la procedència original? què fem amb les revistes UAB, Recercat, webs d'editors...?

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #8

Sí, estic amb la Cristina que són dos temes que no estan relacionats. Els PDFs d'ArXiv, d'altra banda, diria que els generen en el propi sistema a partir del fitxer TeX o LaTeX. Per exemple, si mires les propietats d'aquest document, diuen això:

Title:          
Subject:        
Keywords:       
Author:         
Creator:        LaTeX with hyperref package
Producer:       dvips + GPL Ghostscript GIT PRERELEASE 9.08
CreationDate:   Tue Jul  1 20:57:30 2014
ModDate:        Tue Jul  1 20:57:30 2014
Tagged:         no
Pages:          20
Encrypted:      no
Page size:      595 x 842 pts (A4)
File size:      956897 bytes
Optimized:      no
PDF version:    1.4

Si nosaltres manipulessim els PDFs, no serien els originals, a part que molt probablement no estem autoritzats a fer-ho, mai no podriem comparar que sigun idèntics a les altres còpies que ens serveixen de rèpliques autoritzades (Racó, ReDI, Recercat, etc).

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #9

  • Estat ha canviat de Creada a En curs

Aprofito la vostra petició per corregir alguns aspectes de com es calculen les estadístiques, i fer automàtiques algunes de les tasques de neteja i recàlcul que igualment he de fer de manera manualment al final d'any per la Memòria del Servei de Biblioteques. Estic treballant-hi al DDD de proves.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #10

He deixat preparat els nous scripts perque s'executin aquesta nit. No crec que es vegin gaire les diferències, perquè quan es notarà de debò serà el dia 1 del proper mes (agost), quan, com cada dia 1 de cada mes, el sistema s'hi estarà una bona estona perquè recalcularà des del començament d'any totes les estadístiques, incloent-hi (i eliminant, si cal), els comptadors dels robots que s'hagin detectat al llarg de l'any en curs.

Potser en els propers dies miraré de forçar un recàlcul com si fos el dia 1, per veure'n el resultat abans d'anar de vacances.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #11

Acabo d'afegir una nova detecció automàtica de robots, que consisteix en que si una màquina es descarrega més de 200 vegades un mateix document, l'afegeix a la llista.

La detecció té en compte que si un registre té més d'un document, es divideix la llista de hits pel número de documents, perquè si no comptaria com a robot, per exemple, la gent que es baixa tots els números d'una revista de més de 200 números.

Ho he provat a mà, però preferixo que s'executi completament aquesta nit i veure el resultat a mà. El meu objectiu és que el sistema s'autocorregeixi i elimini els robots (o màquines infectades) en pocs dies, o com a molt al dia 1 del mes següent.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #12

Aquesta nit el nou sistema ha detectat i afegit 84 nous robots a la llista. Entre els quals hi ha, pel que he vist, el causant de tantíssimes consultes des de Mèxic a https://ddd.uab.cat/record/103201/usage. Avui són 380.776; demà haurien de baixar a un número molt més raonable.

També he deixat per aquest cap de setmana el recàlcul anual que inicialment tenia previst que es fes cada dia 1. En principi, per dilluns hauríem de veure números més raonables per a https://ddd.uab.cat/usage.py?c=ddd&report=max, i no hauría de donar error la consulta per https://ddd.uab.cat/usage.py?c=icta&report=max.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #13

Després de uns quants processos iteratius de netejes automàtiques i recàlculs anuals, l'estadística dels documents més descarregats de l'ICTA ja no dóna error:

http://ddd.uab.cat/usage.py?c=icta&report=max

El dubte que tinc ara és un altre. Si us hi fixeu, només tenim estadístiques d'un any (2014), perquè la col·lecció http://ddd.uab.cat/collection/icta s'ha creat aquest any 2014. Com que una de les coses que he arreglat és que cada dia 1 de mes (i, excepcionalment, també aquest cap de setmana) es recalculin totes les estadístiques de l'any, encara que la creació de la col·lecció s'hagués fet el mes de maig, tenim les estadístiques de tot l'any.

Però el número de descàrregues del document més descarregat (Participación cualitativa...) de l'any 2014 és 171, mentre que el global és 1.640. Fa estrany. He investigat el perquè i resulta que és un article publicat a Documents d'Anàlisi Geogràfica l'any 2003, i al que se l'ha afegit a la col·lecció ICTA en algun moment d'aquest any 2014, mentre que el comptador total de descàrregues compta des de que aquest document existeix al DDD.

Per solucionar aquesta contradicció, se m'acudeixen unes quantes solucions.

  1. No fer res.
  2. Ignorar els comptadors d'abans que aquest registre formés part de la col·lecció ICTA.
  3. Recalcular els comptadors de pertinència dels registres a les seves col·leccions retrospectivament des del començament del DDD.

El cost del primer és zero per nosaltres, però pot donar incredulitat si algú s'hi fixa. El segon, crearà una contradicció si veiem que aquest article té X consultes si el mires des de la col·lecció ICTA però Y des de la col·leccció Documents d'Anàlisi Geogràfica. El tercer canviarà contínuament els comptadors ja publicats prèviaments a llocs com la Memòria del Servei de Bibliotques o a altres llocs.

No sé què fer. Què n'opineu?

TF Actualitzat per Tomas Fabregat fa més de 11 anys Accions #14

Per mi la solució és clara: no fer res. El que té valor són els recomptes globals, independentment de les col·leccions creades a posteriori. La incredulitat que comentes es pot explicar i crec que s'entèn, i això és el que importa.

Tenim les dades globals de consulta i els documents més consultats. Amb això en tenim prou, penso, altres solucions no aportarien més claredat, penso.

T.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #15

Ho deixo sense fer res, doncs, tal com proposa el Tomàs?

FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys Accions #16

  • Estat ha canviat de En curs a Tancada

Dono per tancada la tasca. Si no és correcte, torneu-la a obrir.

Accions

També disponible a: PDF Atom