Projecte

General

Perfil

Accions

Tasca #7529

tancat
FJ FJ

Les recol·leccions OAI no estan al dia en tots els casos

Tasca #7529: Les recol·leccions OAI no estan al dia en tots els casos

Afegit per Ferran Jorba fa més de 3 anys. Actualitzat fa més de 3 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Tecnologia
Temàtica prevista:
Inici:
11-11-2022
Data de venciment:
Paraula clau:

Descripció

En les darreres setmanes ens hem adonat que no sempre tenim al dia els registres recol·lectats via OAI i visibles a través de https://ddd.uab.cat/idregistres.py.

Després d'unes quantes tentines, al final vaig veure que el problema estava en que jo hi tenia un límit de recollir un màxim 1000 registres nous o modificats al dia. Això ho vaig posar per diferents motius: un, per prudència, perquè no se'ns saturi el procés; també perquè quan vam començar a recol·lectar Egreta o Pubmed, hi havia una cua tan gran de registres pendents, que era una manera senzilla de garantir d'anar-ho fent mica a mica.

Però resulta que a hores d'ara, segurament per la intervenció del personal del Servei de Biblioteques a Egreta, s'estan generant més de 1000 registres nous o modificats al dia. Com que el màxim de 1000 registres recol·lectats afecta registres de qualsevol servidor OAI, i els processo alfabèticament, fa que els de més al final de la llista (com el TDX) també en surtin perjudicats i tinguem registres que no entren.

En aquesta tasca aniré documentant les possibles solucions fins que ens quedem amb la més pràctica.


Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #7439: Idregistres no agafa les versions més noves que es publiquen per OAITancadaFerran Jorba21-10-202230-12-2022Accions

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #1

  • Estat ha canviat de Creada a En curs

Ahir vaig voler fer la prova d'augmentar el límit a 2000 diaris. Va ser mala idea perquè fins a les 11 del matí no va acabar tots els processos i, per exemple, la llista de l'apartat 2 de https://ddd.uab.cat/idregistres.py (Registres possiblement identificats) repetia els mateixos registres del dia anterior.

Per tant, avui torno a fer que només en faci 1000, però que el cap de setmana no hi hagi límit. Ens ho mirarem.

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #2

  • S'ha afegit relacionat amb Tasca #7439: Idregistres no agafa les versions més noves que es publiquen per OAI

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #3

Agafant les xifres dels registres nous o modificats dels darrers quatre dies d'Egreta:

Data publications:all studenttheses:all Total
10-nov-2022 1385 742 2127
9-nov-2022 824 36 860
8-nov-2022 811 0 811
7-nov-2022 2513 2 2515

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #4

Repassant l'històric de recol·leccions, constato el que és obvi: Egreta sovint passa de 1000 registres, i els altres molt poques vegades; només quan ens posàvem al dia amb Racó o alguna de les revistes UAB havia fet càrregues retrospectives.

D'altra banda, en el cas d'Egreta, els registres es modifiquen contínuament, mentre que als OJS o al TDX, un cop publicat, poques vegades es modifiquen.

Com que aquest ritme segurament anirà a més, estic pensant que una solució podria ser que els vespres, cap a les 8, faci una recol·lecció específica per Egreta, i igualment mantenir-lo a les matinades, sense canviar el límit de 1000 diari i els caps de setmana sense límit.

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #5

Acabo de programar una recol·lecció específica d'Egreta cada vespre a 2/4 de 9, de dilluns a divendres. Veurem.

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #6

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #7

Pensava que aquest cap de setmana ens posaríem al dia, però no. Deuen estar fent alguna mena de canvis globals o modificacions massives a Egreta, i només ahir ja hi havien 6619 registres nous o modificats, i això que ahir era diumenge; per tant, deu ser alguna cosa automatitzada. Tot i que vaig engegar una recol·lecció extraordinària el mateix diumenge, òbviament avui no havia acabat, i trigarem uns dies a tenir-los tots.

Les dates de darrera modificació dels registres d'Egreta de publications:all d'aquest novembre són aquests, comptant que si un registre s'ha modificat un sol cop, en aquest llistat només surt el darrer:

    456 2022-11-01
    394 2022-11-02
   1201 2022-11-03
   1444 2022-11-04
    861 2022-11-05
   1333 2022-11-06
    463 2022-11-07
    647 2022-11-08
    702 2022-11-09
   1276 2022-11-10
    487 2022-11-11
    311 2022-11-12
   6619 2022-11-13
     47 2022-11-14

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #8

De tota manera, perquè aquesta saturació amb Egreta no perjudiqui els registres de la resta dels servidors, he fet que el límit de 1000 registres màxims sigui per servidor. De manera que, per exemple, ens hauríem d'haver posat al dia pel què fa a Racó i TDX, que en teníem de pendents.

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #9

  • Estat ha canviat de En curs a Tancada

He estat forçant unes recol·leccions extraordinàries durant el dia, ahir i abans d'ahir. Entre això i les altres mesures d'aquesta tasca (una recol·lecció diària per a Egreta cada tarda) i fer que el límit de 1000 sigui per servidors, avui ens hem posat al dia. I espero que si hi ha alguna altra saturació, aquest sistema faci que s'autoreguli sol i en pocs dies torni a posar-se al dia.

D'altra banda, els registres d'Egreta amb documents adjunts (oaiset publications:withFiles) sempre tenen prioritat i sempre es recol·lecten cada dia.

Accions

També disponible a: PDF Atom