Tasca #6988
tancatTractar les càrregues de PubMed com les recol·leccions OAI
Descripció
Les càrregues de PubMed funcionen d'aquesta manera:
Un dia la setmana (actualment diumenge a la tarda) es fan unes cerques a PubMed per trobar registres pressumptament de la UAB. Se'n fa una per any des del 2000 a l'any actual:
UAB bellaterra[Affiliation] OR (autonom* AND barcelona[Affiliation]) OR (campus autonom* AND barcelona[Affiliation]) OR bellaterra[Affiliation] OR ATONOMA BARCELONA[Affiliation] OR AUTANOMA BARCELONA[Affiliation] OR AUTNOMA BARCELONA[Affiliation] OR AUTOMA BARCELONA[Affiliation] OR AUTOMONA BARCELONA[Affiliation] OR AUTOMOUS BARCELONA[Affiliation] OR AUTONAMA BARCELONA[Affiliation] OR autonoma barcelona OR UAB barcelona[Affiliation]
D'aquests registres es creuen amb la llista de registres que consta que són d'accés obert i que estan a:
https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_file_list.txt
Agafem també una llista d'equivalències de pmid, dois, etc que està a:
https://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz
Aquesta llista ens serveix per saber si un registre ja el tenim via DOI, però també per afegir-hi el registre pmid de registres que ja tinguem.
Després el registre el recol·lectem via OAI, amb una sintaxi com aquesta:
Per tant, tot i que no és una recol·lecció OAI, se li assembla molt. Crec que val la pena fer-ho, i amb aixó tindrem:
- Accés als registres originals via https://ddd.uab.cat/idregistres.py
- Ús d'un client OAI especialitzat com Sickle, i d'aquesta manera possiblement solucionar els problemes de diacrítics que tenim darrerament.
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
- S'ha afegit relacionat amb Tasca #6690: Adaptar la recol·lecció automàtica de Pubmed als canvis de desembre del 2021
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
- Estat ha canviat de Creada a En curs
De moment he fet algunes tasques preparatòries, com:
- He afegit els paràmetres del servidor OAI de Pubmed a ServidorsOAIqueRecolectem, però amb '-', perquè no el recol·lectem sistemàticament, com els altres
- En el seu moment ja vaig afegir la 035 amb l'identificador OAI del registre de Pubmed (ex: el oai:pubmedcentral.nih.gov:1164430 a https://ddd.uab.cat/record/183160/export/hm). De registres amb l'identificador OAI de Pubmed ja en tenim 6332, i en principi són tots els que han de ser.
- He adaptat el nostre programa de recol·lecció perquè vagi important els registres de Pubmed que ja tenim i els incorpori a la base de dades d'idregistres (ex: https://ddd.uab.cat/idregistres.py/search?q=oai:pubmedcentral.nih.gov:1164430, https://ddd.uab.cat/idregistres.py/search?q=oai:pubmedcentral.nih.gov:1172289)
Ara he de completar les tasques que s'hi fan amb aquests registres, com la conversió a Marc21 (que òbviament ja la tenim feta, però encara no la desem a idregistres), la indexació, etc. I que finalment s'integri d'una manera més natural amb el fluxe de les altres importacions.
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
Ja n'he importat més d'un centenar. La manera més fàcil de consultar-les és via el seu identificador oaiset pmc-open:
https://ddd.uab.cat/idregistres.py/search?q=pmc-open
He confirmat també que tots els registres ja estan lligats al seu registre del DDD, perquè l'identificador oai a la 035 el considerem unívoc, no cal una confirmació humana. Per tant, no donarà feina addicional de repàs.
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
Aquesta matinada ja he fet una primera càrrega automàtica, de 16 registres, a afegir a 2 de proves que vaig fer ahir manualment. Només n'ha fet uns quants perquè encara no hem sincronitzat tots els registres de Pubmed via OAI. N'estem agafant 500 cada dia (per no abusar), i dels 6332 ara en tenim 4952 (https://ddd.uab.cat/idregistres.py/search?q=pmc-open)
https://ddd.uab.cat/search?cc=revisarcaraut
De moment no els treballeu (editeu, canviar-los de col·lecció, etc.) encara, perquè he de confirmar més coses, gràcies. Els canvis que vingui per idautoritats no em són cap problema.
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Mica a mica, s'han anat afegit els identificadors Pubmed a tots els registres del DDD que tenen Doi i els hem pogut lligar a través del fitxer PMC-ids.csv que s'exporta cada dia de Pubmed. Són més de 10.000 registres, dels que hem agafat els registres orginals de Pubmed:
https://ddd.uab.cat/idregistres.py/search?q=pmc-open
D'altra banda, també he aprofitat per canviar el circuit d'aprovació dels registres importats de Pubmed. En comptes de carregar-los tots a la col·lecció Revisar, i anar-los assignant a cada biblioteca a base de canviar la 980, aquesta assignació es podrà fer prèviament. A més, així els que es descartin ja ni s'importaran al DDD. Un primer prototipus de com es farà aquesta selecció ja hi és al DDD de proves:
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Després d'haver-ne parlat amb la Cristina i la Marta, fem una proposta de canvi del circuit d'incorporacions dels registres de Pubmed al DDD. En comptes d'incorporar-los tots sempre, i després esborrar els que no pertoquen, i anar al darrera dels pdf per esborrar-los després, aquesta aprovació (o no) i assignació a la biblioteca la farà la mateixa Marta però via idregistres, consultant el registre nostre o el de Pubmed i assignant-los directament a la biblioteca amb el desplegable.
Aquesta primera part ja l'hem provada al DDD de proves i avui l'he incorporada al DDD públic. Queda la feina relativament petita de fer la pròpia importació dels registres, però mentrestant la Marta pot començar a treballar-hi i, si cal canviar alguna cosa, fer-ho.
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Ja he carregat els primers 121 registres de Pubmed destriats per la Marta amb el nou sistema. Sembla que va bé; al menys, no ha donat errors. El repartiment per biblioteques ha estat aquest:
- 34 REVISARCIE
- 2 REVISARHEM
- 12 REVISARHUM
- 61 REVISARMED
- 2 REVISARSAB
- 1 REVISARSOC
- 9 REVISARVET
CA Actualitzat per Cristina Azorin fa aproximadament 2 anys
- Paraula clau s'ha establert a NCR
CA Actualitzat per Cristina Azorin fa aproximadament 2 anys
- Data de venciment s'ha establert a 22-03-2024
FJ Actualitzat per Ferran Jorba fa més d'un any
- Estat ha canviat de En curs a Tancada
CA Actualitzat per Cristina Azorin fa aproximadament 1 any
- Paraula clau s'ha suprimit (
NCR)