Tasca #7529
tancatLes recol·leccions OAI no estan al dia en tots els casos
Descripció
En les darreres setmanes ens hem adonat que no sempre tenim al dia els registres recol·lectats via OAI i visibles a través de https://ddd.uab.cat/idregistres.py.
Després d'unes quantes tentines, al final vaig veure que el problema estava en que jo hi tenia un límit de recollir un màxim 1000 registres nous o modificats al dia. Això ho vaig posar per diferents motius: un, per prudència, perquè no se'ns saturi el procés; també perquè quan vam començar a recol·lectar Egreta o Pubmed, hi havia una cua tan gran de registres pendents, que era una manera senzilla de garantir d'anar-ho fent mica a mica.
Però resulta que a hores d'ara, segurament per la intervenció del personal del Servei de Biblioteques a Egreta, s'estan generant més de 1000 registres nous o modificats al dia. Com que el màxim de 1000 registres recol·lectats afecta registres de qualsevol servidor OAI, i els processo alfabèticament, fa que els de més al final de la llista (com el TDX) també en surtin perjudicats i tinguem registres que no entren.
En aquesta tasca aniré documentant les possibles solucions fins que ens quedem amb la més pràctica.
FJ Actualitzat per Ferran Jorba fa més de 3 anys
- Estat ha canviat de Creada a En curs
Ahir vaig voler fer la prova d'augmentar el límit a 2000 diaris. Va ser mala idea perquè fins a les 11 del matí no va acabar tots els processos i, per exemple, la llista de l'apartat 2 de https://ddd.uab.cat/idregistres.py (Registres possiblement identificats) repetia els mateixos registres del dia anterior.
Per tant, avui torno a fer que només en faci 1000, però que el cap de setmana no hi hagi límit. Ens ho mirarem.
FJ Actualitzat per Ferran Jorba fa més de 3 anys
- S'ha afegit relacionat amb Tasca #7439: Idregistres no agafa les versions més noves que es publiquen per OAI
FJ Actualitzat per Ferran Jorba fa més de 3 anys
Agafant les xifres dels registres nous o modificats dels darrers quatre dies d'Egreta:
| Data | publications:all | studenttheses:all | Total |
| 10-nov-2022 | 1385 | 742 | 2127 |
| 9-nov-2022 | 824 | 36 | 860 |
| 8-nov-2022 | 811 | 0 | 811 |
| 7-nov-2022 | 2513 | 2 | 2515 |
FJ Actualitzat per Ferran Jorba fa més de 3 anys
Repassant l'històric de recol·leccions, constato el que és obvi: Egreta sovint passa de 1000 registres, i els altres molt poques vegades; només quan ens posàvem al dia amb Racó o alguna de les revistes UAB havia fet càrregues retrospectives.
D'altra banda, en el cas d'Egreta, els registres es modifiquen contínuament, mentre que als OJS o al TDX, un cop publicat, poques vegades es modifiquen.
Com que aquest ritme segurament anirà a més, estic pensant que una solució podria ser que els vespres, cap a les 8, faci una recol·lecció específica per Egreta, i igualment mantenir-lo a les matinades, sense canviar el límit de 1000 diari i els caps de setmana sense límit.
FJ Actualitzat per Ferran Jorba fa més de 3 anys
Acabo de programar una recol·lecció específica d'Egreta cada vespre a 2/4 de 9, de dilluns a divendres. Veurem.
FJ Actualitzat per Ferran Jorba fa més de 3 anys
- S'ha actualitzat Descripció (diferències)
FJ Actualitzat per Ferran Jorba fa més de 3 anys
Pensava que aquest cap de setmana ens posaríem al dia, però no. Deuen estar fent alguna mena de canvis globals o modificacions massives a Egreta, i només ahir ja hi havien 6619 registres nous o modificats, i això que ahir era diumenge; per tant, deu ser alguna cosa automatitzada. Tot i que vaig engegar una recol·lecció extraordinària el mateix diumenge, òbviament avui no havia acabat, i trigarem uns dies a tenir-los tots.
Les dates de darrera modificació dels registres d'Egreta de publications:all d'aquest novembre són aquests, comptant que si un registre s'ha modificat un sol cop, en aquest llistat només surt el darrer:
456 2022-11-01
394 2022-11-02
1201 2022-11-03
1444 2022-11-04
861 2022-11-05
1333 2022-11-06
463 2022-11-07
647 2022-11-08
702 2022-11-09
1276 2022-11-10
487 2022-11-11
311 2022-11-12
6619 2022-11-13
47 2022-11-14
FJ Actualitzat per Ferran Jorba fa més de 3 anys
De tota manera, perquè aquesta saturació amb Egreta no perjudiqui els registres de la resta dels servidors, he fet que el límit de 1000 registres màxims sigui per servidor. De manera que, per exemple, ens hauríem d'haver posat al dia pel què fa a Racó i TDX, que en teníem de pendents.
FJ Actualitzat per Ferran Jorba fa més de 3 anys
- Estat ha canviat de En curs a Tancada
He estat forçant unes recol·leccions extraordinàries durant el dia, ahir i abans d'ahir. Entre això i les altres mesures d'aquesta tasca (una recol·lecció diària per a Egreta cada tarda) i fer que el límit de 1000 sigui per servidors, avui ens hem posat al dia. I espero que si hi ha alguna altra saturació, aquest sistema faci que s'autoreguli sol i en pocs dies torni a posar-se al dia.
D'altra banda, els registres d'Egreta amb documents adjunts (oaiset publications:withFiles) sempre tenen prioritat i sempre es recol·lecten cada dia.