Projecte

General

Perfil

Accions

Tasca #6988

tancat
FJ FJ

Tractar les càrregues de PubMed com les recol·leccions OAI

Tasca #6988: Tractar les càrregues de PubMed com les recol·leccions OAI

Afegit per Ferran Jorba fa aproximadament 4 anys. Actualitzat fa aproximadament 1 any.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Gestió de la col·lecció
Temàtica prevista:
Inici:
07-03-2022
Data de venciment:
22-03-2024
Paraula clau:

Descripció

Les càrregues de PubMed funcionen d'aquesta manera:

Un dia la setmana (actualment diumenge a la tarda) es fan unes cerques a PubMed per trobar registres pressumptament de la UAB. Se'n fa una per any des del 2000 a l'any actual:

UAB bellaterra[Affiliation] OR (autonom* AND barcelona[Affiliation]) OR (campus autonom* AND barcelona[Affiliation]) OR bellaterra[Affiliation] OR ATONOMA BARCELONA[Affiliation] OR AUTANOMA BARCELONA[Affiliation] OR AUTNOMA BARCELONA[Affiliation] OR AUTOMA BARCELONA[Affiliation] OR AUTOMONA BARCELONA[Affiliation] OR AUTOMOUS BARCELONA[Affiliation] OR AUTONAMA BARCELONA[Affiliation] OR autonoma barcelona OR UAB barcelona[Affiliation]

D'aquests registres es creuen amb la llista de registres que consta que són d'accés obert i que estan a:

https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_file_list.txt

Agafem també una llista d'equivalències de pmid, dois, etc que està a:

https://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz

Aquesta llista ens serveix per saber si un registre ja el tenim via DOI, però també per afegir-hi el registre pmid de registres que ja tinguem.

Després el registre el recol·lectem via OAI, amb una sintaxi com aquesta:

https://www.ncbi.nlm.nih.gov/pmc/oai/oai.cgi?verb=GetRecord&metadataPrefix=pmc&identifier=oai:pubmedcentral.nih.gov:4317171

Per tant, tot i que no és una recol·lecció OAI, se li assembla molt. Crec que val la pena fer-ho, i amb aixó tindrem:

  1. Accés als registres originals via https://ddd.uab.cat/idregistres.py
  2. Ús d'un client OAI especialitzat com Sickle, i d'aquesta manera possiblement solucionar els problemes de diacrítics que tenim darrerament.

Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #6690: Adaptar la recol·lecció automàtica de Pubmed als canvis de desembre del 2021TancadaFerran Jorba10-01-2022Accions

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #1

  • S'ha afegit relacionat amb Tasca #6690: Adaptar la recol·lecció automàtica de Pubmed als canvis de desembre del 2021

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #2

  • Estat ha canviat de Creada a En curs

De moment he fet algunes tasques preparatòries, com:

  1. He afegit els paràmetres del servidor OAI de Pubmed a ServidorsOAIqueRecolectem, però amb '-', perquè no el recol·lectem sistemàticament, com els altres
  2. En el seu moment ja vaig afegir la 035 amb l'identificador OAI del registre de Pubmed (ex: el oai:pubmedcentral.nih.gov:1164430 a https://ddd.uab.cat/record/183160/export/hm). De registres amb l'identificador OAI de Pubmed ja en tenim 6332, i en principi són tots els que han de ser.
  3. He adaptat el nostre programa de recol·lecció perquè vagi important els registres de Pubmed que ja tenim i els incorpori a la base de dades d'idregistres (ex: https://ddd.uab.cat/idregistres.py/search?q=oai:pubmedcentral.nih.gov:1164430, https://ddd.uab.cat/idregistres.py/search?q=oai:pubmedcentral.nih.gov:1172289)

Ara he de completar les tasques que s'hi fan amb aquests registres, com la conversió a Marc21 (que òbviament ja la tenim feta, però encara no la desem a idregistres), la indexació, etc. I que finalment s'integri d'una manera més natural amb el fluxe de les altres importacions.

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #3

Ja n'he importat més d'un centenar. La manera més fàcil de consultar-les és via el seu identificador oaiset pmc-open:

https://ddd.uab.cat/idregistres.py/search?q=pmc-open

He confirmat també que tots els registres ja estan lligats al seu registre del DDD, perquè l'identificador oai a la 035 el considerem unívoc, no cal una confirmació humana. Per tant, no donarà feina addicional de repàs.

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #4

Aquesta matinada ja he fet una primera càrrega automàtica, de 16 registres, a afegir a 2 de proves que vaig fer ahir manualment. Només n'ha fet uns quants perquè encara no hem sincronitzat tots els registres de Pubmed via OAI. N'estem agafant 500 cada dia (per no abusar), i dels 6332 ara en tenim 4952 (https://ddd.uab.cat/idregistres.py/search?q=pmc-open)

https://ddd.uab.cat/search?cc=revisarcaraut

De moment no els treballeu (editeu, canviar-los de col·lecció, etc.) encara, perquè he de confirmar més coses, gràcies. Els canvis que vingui per idautoritats no em són cap problema.

FJ Actualitzat per Ferran Jorba fa quasi 4 anys Accions #5

Mica a mica, s'han anat afegit els identificadors Pubmed a tots els registres del DDD que tenen Doi i els hem pogut lligar a través del fitxer PMC-ids.csv que s'exporta cada dia de Pubmed. Són més de 10.000 registres, dels que hem agafat els registres orginals de Pubmed:

https://ddd.uab.cat/idregistres.py/search?q=pmc-open

D'altra banda, també he aprofitat per canviar el circuit d'aprovació dels registres importats de Pubmed. En comptes de carregar-los tots a la col·lecció Revisar, i anar-los assignant a cada biblioteca a base de canviar la 980, aquesta assignació es podrà fer prèviament. A més, així els que es descartin ja ni s'importaran al DDD. Un primer prototipus de com es farà aquesta selecció ja hi és al DDD de proves:

https://ddd-test.uab.cat/idregistres.py/review_pubmed

FJ Actualitzat per Ferran Jorba fa quasi 4 anys Accions #6

Després d'haver-ne parlat amb la Cristina i la Marta, fem una proposta de canvi del circuit d'incorporacions dels registres de Pubmed al DDD. En comptes d'incorporar-los tots sempre, i després esborrar els que no pertoquen, i anar al darrera dels pdf per esborrar-los després, aquesta aprovació (o no) i assignació a la biblioteca la farà la mateixa Marta però via idregistres, consultant el registre nostre o el de Pubmed i assignant-los directament a la biblioteca amb el desplegable.

Aquesta primera part ja l'hem provada al DDD de proves i avui l'he incorporada al DDD públic. Queda la feina relativament petita de fer la pròpia importació dels registres, però mentrestant la Marta pot començar a treballar-hi i, si cal canviar alguna cosa, fer-ho.

https://ddd.uab.cat/idregistres.py/review_pubmed

FJ Actualitzat per Ferran Jorba fa quasi 4 anys Accions #7

Ja he carregat els primers 121 registres de Pubmed destriats per la Marta amb el nou sistema. Sembla que va bé; al menys, no ha donat errors. El repartiment per biblioteques ha estat aquest:

  • 34 REVISARCIE
  • 2 REVISARHEM
  • 12 REVISARHUM
  • 61 REVISARMED
  • 2 REVISARSAB
  • 1 REVISARSOC
  • 9 REVISARVET

CA Actualitzat per Cristina Azorin fa aproximadament 2 anys Accions #8

  • Paraula clau s'ha establert a NCR

CA Actualitzat per Cristina Azorin fa aproximadament 2 anys Accions #9

  • Data de venciment s'ha establert a 22-03-2024

FJ Actualitzat per Ferran Jorba fa més d'un any Accions #10

  • Estat ha canviat de En curs a Tancada

CA Actualitzat per Cristina Azorin fa aproximadament 1 any Accions #11

  • Paraula clau s'ha suprimit (NCR)
Accions

També disponible a: PDF Atom