Projecte

General

Perfil

Accions

Tasca #867

tancat
CA MJ

Càrrega dels articles de PubMed d'autors de la UAB

Tasca #867: Càrrega dels articles de PubMed d'autors de la UAB

Afegit per Cristina Azorin fa quasi 16 anys. Actualitzat fa més de 5 anys.

Estat:
Tancada
Prioritat:
Alta
Assignat a:
Categoria:
Suport a docència i recerca
Inici:
18-06-2016
Data de venciment:
27-07-2017
Paraula clau:

Descripció

PubMed permet l'arxiu dels seus articles als dipòsits institucionals.

S'hauria de mirar de carregar automàticament els registres en que aparegui algun autor de la UAB a PubMed: http://www.ncbi.nlm.nih.gov/pubmed

A data d'avui fent la cerca per "universitat autònoma barcelona" apareixen 5.415 referències


Fitxers

Cerca PubMed_PMC_EPMC.docx (20.6 KB) Cerca PubMed_PMC_EPMC.docx Marta Jordan, 27-02-2017 15:44
afiliacions.txt (24.7 KB) afiliacions.txt Mostra d'afiliacions de la UAB dels anys 2015 i 2016 al PubMedCentral Ferran Jorba, 06-11-2017 17:08
revistes_a2018m3d2.txt (22.8 KB) revistes_a2018m3d2.txt Llista de les 641 revistes, ordenades de més a menys articles Ferran Jorba, 02-03-2018 09:34
afiliacions_a2018m3d2.txt (159 KB) afiliacions_a2018m3d2.txt Llista de les 1186 que segurament són UAB, he preferit que en surti alguna de més que de menys Ferran Jorba, 02-03-2018 09:35
Filiacions_a2018m3d2.xlsx (50 KB) Filiacions_a2018m3d2.xlsx Marta Jordan, 30-04-2018 14:14
afiliacions_a2019m6d25.txt (48.3 KB) afiliacions_a2019m6d25.txt Ferran Jorba, 25-06-2019 13:04
filiacions_a2019m6d25.xlsx (13.7 KB) filiacions_a2019m6d25.xlsx Marta Jordan, 26-06-2019 13:14

Tasques relacionades 9 (0 obertes9 tancades)

relacionat amb DDD - Tasca #3222: Lligar EuropePMC amb DDDTancadaJavier Planella11-12-201416-10-2017Accions
relacionat amb DDD - Tasca #2813: Afegir al registres complets l'identificador del PubMedTancadaFerran Jorba04-04-201401-06-2017Accions
relacionat amb DDD - Tasca #4742: Com carreguem els articles de Pubmed?TancadaFerran Jorba07-11-201720-12-2017Accions
relacionat amb DDD - Tasca #4614: Extracció automàtica de la base de dades de Scopus a partir de l'APITancadaFerran Jorba03-07-201725-02-2019Accions
relacionat amb Docència i recerca - Tasca #4984: Validació dels articles Accés Obert de PubMed al DDDTancadaFerran Jorba08-05-2018Accions
relacionat amb DDD - Tasca #5166: Afegir etiqueta 979 a les càrregues de PubmedTancadaCristina Azorin29-10-201819-12-2018Accions
relacionat amb DDD - Tasca #5578: Continuar amb la càrrega de PubMed malgrat els errors de connexióTancadaJavier Planella03-02-2020Accions
relacionat amb DDD - Tasca #6690: Adaptar la recol·lecció automàtica de Pubmed als canvis de desembre del 2021TancadaFerran Jorba10-01-2022Accions
copiada a DDD - Tasca #4844: Normalitzar les afiliacions de la UAB més comunes en els documentsTancadaFerran Jorba18-06-201628-06-2018Accions

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #1

  • S'ha actualitzat Descripció (diferències)
  • Data de venciment s'ha establert a 18-06-2015
  • Prioritat ha canviat de Baixa a Normal

CA Actualitzat per Cristina Azorin fa aproximadament 11 anys Accions #2

  • Paraula clau s'ha establert a JR

CA Actualitzat per Cristina Azorin fa aproximadament 11 anys Accions #3

  • Temàtica prevista ha canviat de Noves càrregues de col·leccions o documents a Millores respecte a la producció científica de la UAB

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #4

  • Data de venciment ha canviat de 18-06-2015 a 18-06-2016
  • Categoria s'ha establert a Suport a docència i recerca

CA Actualitzat per Cristina Azorin fa quasi 10 anys Accions #5

  • Prioritat ha canviat de Normal a Alta

CA Actualitzat per Cristina Azorin fa quasi 10 anys Accions #6

  • Data de venciment ha canviat de 18-06-2016 a 18-09-2016
  • Inici s'ha establert a 18-06-2016

CA Actualitzat per Cristina Azorin fa més de 9 anys Accions #7

  • Assignat a ha canviat de Ferran Jorba a Marta Jordan

Aquesta tasca s'assigna a la Marta Jordan per a que estudiï les diferents possibilitats d'exportació d'articles des del PubMed Central (articles publicats per investigadors d'Estats Units en full text):

  • Primer de tot cal mirar les opcions de cerca i de formats d'exportació de PubMed i de PubMed Central. Perquè tot i que pensem que seria millor anar directament a PubMed Central (que no té registres de referència) sembla que PubMed dóna una sortida de dades més completa.
  • Dels articles publicats a Pubmed Central, quants són susceptibles de ser UAB? Ara mateix quants articles es podrien carregar. La Marta farà una cerca concreta amb números genèrics i amb el filtre de 'full text' o millor d'accés obert (si pogués ser).
  • Quina diferència hi ha entre Pubmed Central i EuropePMC? De quins dels dos s'haurien de fer les descàrregues?
  • Cal detectar possibles problemes d'afiliacions.
  • Cal establir si seria millor un sistema que descarregués automàticament tots els registres resultants de la cerca o si seria millor establir una passarel·la que permetés entrar els registres un a un.
  • Pubmed central dóna permisos genèrics per a dipòsits institucionals?
  • Les alertes de noves entrades arriben per correu, però hi ha alguna API que permeti les exportacions de dades? (http://www.ncbi.nlm.nih.gov/pmc/tools/developers/)

CA Actualitzat per Cristina Azorin fa més de 9 anys Accions #8

  • Data de venciment ha canviat de 18-09-2016 a 30-11-2016

CA Actualitzat per Cristina Azorin fa aproximadament 9 anys Accions #9

  • Data de venciment ha canviat de 30-11-2016 a 01-06-2017

MJ Actualitzat per Marta Jordan fa aproximadament 9 anys Accions #10

Hola!

Adjunto un document on s'analitzen diversos aspectes del que vam parlar a la trobada de l'estiu passat (perdoneu el retard!)

Abans de què us el mireu, agrairia que em truquéssiu un moment, per explicar-vos un parell de coses a tenir en compte...

Gràcies!

CA Actualitzat per Cristina Azorin fa aproximadament 9 anys Accions #11

  • Assignat a ha canviat de Marta Jordan a Ferran Jorba

CA Actualitzat per Cristina Azorin fa quasi 9 anys Accions #12

PR Actualitzat per Pere Roca fa quasi 9 anys Accions #13

  • Prioritat ha canviat de Alta a Urgent

JP Actualitzat per Javier Planella fa quasi 9 anys Accions #14

  • Assignat a ha canviat de Ferran Jorba a Javier Planella

FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #15

Amb el Javier hem estat avançant en diferents fronts.

1. Identificació dels registres amb autors de la UAB. A partir de la (llarguíssima) cerca que ens ha preparat la Marta, el Javier ha preparat un script que fa les cerques per anys i retorna els PMIDs d'aquests registres. Creiem que és millor fer-ho per data d'entrada a PubMed, no per data de publicació de l'article, perquè podem anar segmentant i tancant anys.

2. Hem d'acabar d'esbrinar si és possible afinar la cerca perquè inclogui els registres que tinguin text complet i/o que puguem incorporar al DDD.

3. De la llista dels PMIDs, descartarem els que ja tenim al DDD, i ens quedem amb els que no tenim.

4. A hores d'ara estem mirant quina és la millor estratègia per recuperar el registre bibliogràfic d'aquests articles. Hem estat estudiant diferents estratègies.

a. Pel servidor OAI. Després d'algunes proves i errors, hem après que l'identificador del registre no és el PMID, sinó el PMC. A resultes de la tasca #2813, ja en tenim un fitxer amb les equivalències, que actualitzem automàticament un cop al mes.

Vegem-ne algun exemple: el registre https://ddd.uab.cat/record/175912 té el PMID 26919668. A partir del fitxer d'equivalències, sabem que el PMC és el 4769067. Amb aquest identificador podem accedir, via OAI, al registre en tres formats diferents: Dublin Core i dues variants de pmc (que deu ser PubMedCentral):

Si els examinem, veurem això:

b. Sembla que hi ha una altra manera, a través del seu servidor ftp:

ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/ (no feu clic als fitxers, que són tan grans que es penja el navegador!)

Hi ha uns fitxers (oa_comm_use_file_list.{csv,txt}, oa_file_list.{csv,txt}, oa_non_comm_use_pdf.{csv,txt} amb unes adreces del tipus ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/c1/d0/ i amb uns fitxers que (sembla) que tenen la mateixa informació que el servidor OAI.

Ara es tracta d'explorar quina és la manera que ens va millor per obtenir el registre i el pdf.

5. Per més endavant, quan tinguem més clars els punts anteriors, mirarem quina estratègia seguim per carregar-los al DDD. Podriem passar-los a la col·lecció revisar, o utilitzar la interfíce d'idregistres.py. Ja tindrem ocasió d'anar-ho valorant.

FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #16

  • Tema ha canviat de Cárrega dels articles de PubMed d'autors de la UAB a Càrrega dels articles de PubMed d'autors de la UAB

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #17

  • Data de venciment ha canviat de 01-06-2017 a 16-10-2017

JP Actualitzat per Javier Planella fa més de 8 anys Accions #18

  • Paraula clau ha canviat de JR a JR TLT

Programat pubmed.py, de tal manera que de moment retorna els pmids de pubmed que no estan al DDD.

Per exemple:

de la cerca: pubmed.py 2012

el PMID "23251417" ja esta al DDD i no el retorna

Respecte a descarregar-se el registre:

- des de la interfície d'OAI obtenim les dades del registre bibliogràfic
- amb el fitxer ftp (ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_file_list.txt), mitjançant el identificador PMID podem descarregar-nos el .pdf a text complet sense necessitat d'anar a la plataforma de l'editor.

Per exemple per al PMID 23271952 (PMC 3525531)
(https://www.ncbi.nlm.nih.gov/pubmed/23271952)

les dades del registre en DC:

https://www.ncbi.nlm.nih.gov/pmc/oai/oai.cgi?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:pubmedcentral.nih.gov:3525531

a la línia:

<dc:identifier> http://dx.doi.org/10.1371/journal.pbio.1001448 </dc:identifier>

es un enllaç a l'editor que porta a:
http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1001448
i es pot descarregar el .pdf del text complet

aquest mateix pdf està al servidor pubmed:
ftp: //ftp.ncbi.nlm.nih.gov/pub/pmc/...

Per obtenir el .pdf, en el fitxer:
ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_file_list.txt

tenim la ruta per descarregar el .pdf comprimit:

oa_package/e6/53/PMC3525531.tar.gz PLoS One. 2016 Feb 26; 11 (2):e0150539 PMC4769067 PMID:26919668 CC BY

la ruta completa és:
ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/e6/53/PMC3525531.tar.gz

un cop descomprimit tenim el .pdf: pbio.1001448.pdf

També el tenim a: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3525531/pdf/pbio.1001448.pdf (amb el DOI)

No tots els PMID estan disponibles a oa_file_lists.txt.

Per exemple 23263540:
https://www.ncbi.nlm.nih.gov/pubmed/?term=23263540
és una publicació que és de pagament:
https://link.springer.com/article/10.1007%2Fs00702-012-0949-x

Per exemple 23265690:
https://www.ncbi.nlm.nih.gov/pubmed/?term=23265690
és una publicació que requereix login/subscripció:
http://www.arthroscopyjournal.org/article/S0749-8063(12)01657-X/fulltext

només són accessibles a text complet aquells registres que tenen el PMID a oa_file_list.txt i que d'alguna manera són d'accés lliure(?)

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #19

  • Estat ha canviat de Creada a En curs

Estem mirant els articles de Pubmed de 2016, hi ha 2751 seguint la cerca que va fer la Marta. D'aquests més de 700 estan en accés obert i podem extreure el pdf. Actualment al DDD d'aquest mateix any hi ha un centenar ja entrats. La càrrega amb la que començaríem seria de 680 articles.

Caldria estudiar on els descarreguem per a no col·lapsar la bústia de revisió de medicina, i si en fem un repartiment per biblioteques. Tot i que això millor valorar-ho quan veiem la qualitat de l'exportació.

JP Actualitzat per Javier Planella fa més de 8 anys Accions #20

Programat pubmed.py

Aquest programa baixa el baixa el .pdf (text complet) i .pmc (descipció en XML) dels articles que estan en accés obert

Per exemple executar pubmed 2016:
  • Llegeix els pmids de ddd@taltabull:~/importacions/pubmed/pmids@pubmed_a2016.xml
  • Comprova si estan d'accés lliure
  • Comprova si estan al DDD. Si no es així llavors baixa el .pdf (text complet) i .pmc (descripció en XML) i els deixa a ddd@taltabull:~/importacions/pubmed
  • Per aquest any hi han 680 articles

JP Actualitzat per Javier Planella fa més de 8 anys Accions #21

  • Assignat a ha canviat de Javier Planella a Ferran Jorba

JP Actualitzat per Javier Planella fa més de 8 anys Accions #22

Un cop descarregats els .pdf i el registres XML Ferran Jorba farà la conversió de dades a Marc21

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #23

Acabo de fer una primera càrrega, provisional, al DDD de proves, de 361 articles del PMC del 2015 a https://ddd-test.uab.cat/collection/artpub. Els PDFs els tenim però no els he enllaçat, per això no es veuen les miniatures.

(Si no es veuen de seguida, es veuran en una estoneta...)

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #24

Perdona Ferran, com els puc veure, en entrar al DDD de proves els primers registres que apareixen són els de Wormwood...

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #25

Val, ara he vist la teva nota entre parèntesis, perdona la meva impaciència ;-)

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #26

  • Assignat a ha canviat de Ferran Jorba a Marta Jordan

Moltes gràcies Ferran i Javier, penso que el resultat, per ser automàtic, és molt bo. Hi ha feina manual que és difícil que ens pugueu estalviar, l'única que se m'acut són les paraules clau, que generalment estan a la pàgina, no hi ha manera de capturar-les?

Perquè en alguns casos hi ha els drets (https://ddd-test.uab.cat/record/172941) i en d'altres no (https://ddd-test.uab.cat/record/172939) ?

Com a canvi global es podrien afegir alguns dels requeriments d'OpenAIRE com el tipus de document. També per defecte es podria posar l'anglès (com a 546) i modificar-ho només si fos diferent. La 980 hauria de contenir un $b UAB

El personal de biblioteques hauria de:

1. repassar les afiliacions, potser hi ha casos en que són organismes de CSIC situats al campus https://ddd-test.uab.cat/record/172957 o que l'entrada és massa llarga i inclou el departament https://ddd-test.uab.cat/record/172939
2. Arreglar la referencia, per exemple, afegint el número de pàgina, si n'hi ha.
3. Afegir les paraules clau

Marta, podries fer un cop d'ull a veure què et sembla???

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #27

  • Assignat a ha canviat de Marta Jordan a Ferran Jorba

Cristina Azorin va escriure:

Moltes gràcies Ferran i Javier, penso que el resultat, per ser automàtic, és molt bo. Hi ha feina manual que és difícil que ens pugueu estalviar, l'única que se m'acut són les paraules clau, que generalment estan a la pàgina, no hi ha manera de capturar-les?

Sí, les paraules claus les inclouré a la propera (re)càrrega, en principi he de poder sense problemes.

Perquè en alguns casos hi ha els drets (https://ddd-test.uab.cat/record/172941) i en d'altres no (https://ddd-test.uab.cat/record/172939) ?

Gràcies per fixar-t'hi, ho corregiré. Els registres no són del tot uniformes, de vegades hi ha camps que estan codificats d'una manera i d'altres d'una altra. M'acabo de mirar l'exemple que em dones i veig que la els drets hi són però codificats en un altre lloc, ja m'hi poso....

Com a canvi global es podrien afegir alguns dels requeriments d'OpenAIRE com el tipus de document. També per defecte es podria posar l'anglès (com a 546) i modificar-ho només si fos diferent. La 980 hauria de contenir un $b UAB

D'acord a tots dos, m'ho miro.

El personal de biblioteques hauria de:

1. repassar les afiliacions, potser hi ha casos en que són organismes de CSIC situats al campus https://ddd-test.uab.cat/record/172957 o que l'entrada és massa llarga i inclou el departament https://ddd-test.uab.cat/record/172939

Pel que fa al tema de les afiliacions, estic pensant en una política global que permeti garantir la homogeneïtat. Per exemple, en una pàgina del wiki, com les taules RecercatEquivalenciaDelsOAIsetsAlDDD. Potser una taula no aniria bé perquè, justament, són molt llargues, però sí alguna mena de llista. Així, si ens apareix una afiliació no normalitzada, la podríeu afegir allà i l'endemà el registre estaria corregit.

2. Arreglar la referencia, per exemple, afegint el número de pàgina, si n'hi ha.

Ah, veus? No m'hi havia fixat, miraré si hi és.

3. Afegir les paraules clau

Sí, aquesta sí.

Marta, podries fer un cop d'ull a veure què et sembla???

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #28

Crec que totes les millores ja estan fetes i, a més, hi he pogut posar els orcid quan hi són. Tinc un incident, que haurem de comentar, quan hi ha més d'una nota de drets.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #29

He fet una càrrega nova amb 643 articles del 2016, amb totes les millores i amb més d'una etiqueta de notes si n'hi ha més d'una en el registre original:

https://ddd-test.uab.cat/collection/artpub

Després posaré algun exemple i comentarem les afiliacions.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #30

Anem bé. El primer que es veu dels nous no té abstract: https://ddd-test.uab.cat/record/173790. Me'l miraré, és clar.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #31

Sobre les afiliacions. Havent processat prop de 1200 registres bibliogràfics dels anys 2015 i 2016, la UAB aparareix en unes 868 maneres diferents, algunes de les quals desenes o (en un cas) centenars de vegades. Adjunto en el fitxer afiliacions.txt les que apareixen 4 o més cops.

Jo crec que, per estalviar una feina absolutament repetitiva, valdria la pena crear una pàgina wiki amb les equivalències entre les diferents formes que ens trobem aquestes afiliacions i la normalitzada que volem nosaltres. Així, les correccions serien automàtiques.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #32

Ferran Jorba va escriure:

Anem bé. El primer que es veu dels nous no té abstract: https://ddd-test.uab.cat/record/173790. Me'l miraré, és clar.

Ja hi és. Certament, la codificació dels registres no és ben bé homogènia. Si trobeu altres irregularitats, si us plau aviseu-me, que se m'en poden haver escapat d'altres.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #33

Per anar provant el conversor, he anat carregant anys, sempre registres que no tenim al DDD (de proves, en aquest cas). Ara mateix, a https://ddd-test.uab.cat/collection/artpub hi ha els del 2016 fins el 2013.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #34

  • S'ha afegit relacionat amb Tasca #4742: Com carreguem els articles de Pubmed?

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #35

Hi he afegit els 85 registres del 2012 i els 70 del 2011. Registres amb text complet, amb llicència oberta i que no tenim ja al DDD (de proves).

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #36

Els registres que podem reutilitzar, per anys, són:

  • 2017: 581 (provisional, fins a començaments de novembre)
  • 2016: 689
  • 2015: 553
  • 2014: 353
  • 2013: 141
  • 2012: 85
  • 2011: 70
  • 2010: 32
  • 2009: 34
  • 2008: 13
  • 2007: 8
  • 2006: 5
  • 2005: 3
  • 2004: 1
  • 2003: 1
  • 2002: 2
  • 2001: 0
  • 2000: 0

Total: 2571

En els propers minuts els acabaré de carregar tots al DDD de proves, col·lecció https://ddd-test.uab.cat/collection/artpub

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #37

Una nota pel que fa a la xifra de registres que he estat donant fins ara. El comportament d'Invenio per identificar registres nous és si coincideix l'etiqueta 001 o la 035. Resulta que ni el DOI ni el PMID van a aquestes etiquetes, sinó a la 024 (exemple: https://ddd.uab.cat/record/181904/export/hm).

Cal doncs que el programa de conversió afini més que Invenio i que no carregui registres nous si ja n'existeix algun amb el DOI o el PMID.

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #38

  • Data de venciment ha canviat de 16-10-2017 a 20-12-2017
  • Assignat a ha canviat de Ferran Jorba a Marta Jordan

La part informàtica ja està enllestida ara queda, tenir l'aprovació dels gestors de docència i recerca, especialment de la Marta Jordan i decidir i crear la col·lecció específica per revisar els registres (tasca #4742).

MJ Actualitzat per Marta Jordan fa més de 8 anys Accions #39

Bon dia!

He estat revisant la càrrega d'articles de PubMed al DDD-test. Abans de res, he de dir que l'estalvi de feina que ens suposa a les biblioteques aquesta càrrega automàtica és impressionant. Jo ara comentaré una sèrie d'aspectes per saber si es poden automatitzar. Si no fos possible automatitzar-los tots, o alguns, no hi hauria cap problema en realitzar-los manualment, perquè ja tindrem moltíssima feina feta.

Veureu que alguns d'aquests aspectes ja els heu anat comentant al llarg de la tasca:

1. El text de les llicències està en anglès (etiqueta 546), seria possible que la 546 sortís automàticament en català?

2. Alguns registres no tenen la llicència. Exemples:
https://ddd-test.uab.cat/record/175165
https://ddd-test.uab.cat/record/175162

3. En un punt de la tasca, es comentava que les pàgines dels articles no apareixien. Això s'ha solventat, però quan no hi ha paginació i el que hi ha és el núm. d'article, aquesta dada no apareix al registre DDD. Exemples:

https://ddd-test.uab.cat/record/175165
https://ddd-test.uab.cat/record/175161
https://ddd-test.uab.cat/record/175155
https://ddd-test.uab.cat/record/175091

Si aneu al registre PubMed d'aquests articles, veureu que enlloc de pàgines apareix el núm. de l'article. Seria possible que aquesta dada s'inclogués al registre, tal i com s'ha fet amb les pàgines?

4. Comenteu que no s'han carregat registres duplicats, és a dir, que si l'article ja es trobava al DDD, aquest no s'ha carregat. A mi m'ha semblat veure que sí que s'han carregat registres que ja es trobaven al DDD, però no sé si ho miro bé. Us poso un parell d'exemples i ja confirmareu si m'equivoco o no:

Entrat al DDD: https://ddd.uab.cat/record/170647
Carregat del PubMed: https://ddd-test.uab.cat/record/174542

Entrat al DDD: https://ddd.uab.cat/record/170651
Carregat del PubMed: https://ddd-test.uab.cat/record/173498

5. Pel que fa a les filiacions: si és possible automatitzar alguna part d'aquest procés penso que, com a mínim, caldria intentar unificar de manera automàtica les filiacions corresponents a la UAB. Si hi ha la possibilitat de corregir automàticament les filiacions més "recurrents", perfecte. Ja ens indicareu si, en aquest aspecte concret, hem de fer alguna tasca específica.

6. Pel que fa a la possibilitat de refinar més la cerca a PubMed d'on s'obtenen aquests articles: he vist que comentàveu que apareixien articles de l'IFAE o CSIC que són institucions que es troben al Campus, tot i que no són UAB, i comentaveu la possibilitat de repolir l'estratègia de cerca per tal que aquests articles no apareguessin. Es podria intentar un refinament, però cal tenir present que, si ho fem, també desapareixeran articles que, per exemple, ha publicat algú d'un centre CSIC del Campus en col·laboració amb algun investigador d'un departament o centre de recerca de la UAB. No sé si m'explico... vull dir que podrien eliminar-se articles on, a banda d'aquests centres, també hi aparegués la UAB pròpiament com a coautora...

En principi, aquests són els aspectes a comentar sobre aquesta tasca. Moltes gràcies a tots per la feina que heu estat fent!

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #40

  • Assignat a ha canviat de Marta Jordan a Ferran Jorba
  • Prioritat ha canviat de Urgent a Immediata

Ja he creat la col·lecció on han d'anar a parar els registres d'aquestes càrregues:

https://ddd.uab.cat/collection/revisarcaraut

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #41

Ja hem fet una primera càrrega de tots els registres fins el 2010 inclòs (https://ddd.uab.cat/collection/revisarcaraut).

Falta:

  • Normalitzar les afiliacions de la UAB més comunes.
  • Falta automatitzar les càrregues, perquè vagin al dia, però ho farem quan hàgim acabat de fer els registres retrospectius. Ho fem en aquest ordre perquè els més recents apareguin a dalt de tot.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #42

Cal continuar aquestes càrregues retrospectives, des del 2011 al 2017, per després deixar que es facin automàticament les de l'any actual (que serà el 2018).

Cal repassar la resta dels temes de la nota anterior.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #43

  • Data de venciment ha canviat de 20-12-2017 a 28-06-2018

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #44

  • Assignat a ha canviat de Ferran Jorba a Carme Besson
  • Prioritat ha canviat de Immediata a Normal

El grup de Docència i Recerca ha de decidir si vol augmentar el nombre d'articles carregats i que es vagi fent ja de manera automàtica a partir d'ara.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #45

  • S'ha afegit copiada a Tasca #4844: Normalitzar les afiliacions de la UAB més comunes en els documents

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #46

  • Assignat a ha canviat de Carme Besson a Ferran Jorba

En reunió del dia 25 de gener s'estableix que es farà la càrrega de tot el retrospectiu i ja es posarà al dia per a que es vagi fent automàticament.

Les biblioteques més implicades decidiran en quina mesura van treballant amb aquests registres.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #47

Ahir vaig carregar els del 2011, i avui els del 2012. Però acabo de veure'n algun que clarament està malament:

Si us plau, no treballeu amb aquests registres ni els que estiguin malament, perquè vol dir que he de corregir el convertidor i m'interessa no perdre els casos. Gràcies.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #48

Ja he corregit els registres mal convertits. La causa era que el servidor de proves (Taltabull) tenia unes versions diferents d'unes utilitats que no a Mompou, i per tant ho entenien diferent.

D'altra banda, i donat que hi ha articles antics que es van alliberant i queden oberts (p. ex., si hi ha un embargament), i que PubMed els ofereix en text complet, el que acabo de fer és que sempre repassi des de l'any actual (en aquest cas, el 2011) fins al 2000, retrospectivament, per si n'hi ha algun que abans no era d'accés o obert i ara sí i, si el troba, també el carrega al DDD i el deixarà a https://ddd.uab.cat/collection/revisarcaraut.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #49

Ja estan carregat els del 2013 i 2014. En vaig fent un any per dia, més o menys.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #50

Carregats els del 2015.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #51

Avui m'ha fallat la càrrega del 2016 per una badada, i l'he reprogramada per demà a la matinada. (Ho deixo aquí apuntat per si demà me n'oblido).

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #52

Carregats els del 2017.

CB Actualitzat per Carme Besson fa aproximadament 8 anys Accions #53

Moltes gràcies, Ferran.
Ara que ja en tenim un bon gruix podries fer un parell de coses més:

- Treure un altre TXT amb les filiacions de la UAB per a tots els anys
- Treure un altre TXT pels títols de revistes també per tots els anys

Gràcies!

Carme

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #54

Ja estan tots carregats, i programat perquè cada dilluns es carreguin els nous, i els antics que s'hagin desembargat segons la gestió que ja en fa la base de dades Pubmed.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #55

Carme Besson va escriure:

- Treure un altre TXT amb les filiacions de la UAB per a tots els anys
- Treure un altre TXT pels títols de revistes també per tots els anys

Correcte, queda pendent.

CB Actualitzat per Carme Besson fa aproximadament 8 anys Accions #56

Hola Ferran,

Creus que podríem tenir els dos llistats per aquest divendres a darrera hora o dilluns a primeríssima hora del matí? És que dilluns tenim reunió de SDR i ens aniria bé.

Gràcies!

Carme

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #57

Carme Besson va escriure:

Creus que podríem tenir els dos llistats per aquest divendres a darrera hora o dilluns a primeríssima hora del matí? És que dilluns tenim reunió de SDR i ens aniria bé.

Sí, compto que sí. Avui no podré dedicar-m'hi, però procuraré posar-m'hi demà a primera hora.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #58

Carme,

pel que fa a la llista de les revistes i afiliacions, ho he calculat a partir dels 1330 registres que ara mateix formen part de la col·lecció https://ddd.uab.cat/collection/revisarcaraut, és a dir, dels que no teníem ja al DDD. Si t'interessa que ho faci sobre els 2513 que ens hem descarregat (és a dir, que confirma que ja en teníem aproximadament la meitat), diga-m'ho que també t'ho faig.

CB Actualitzat per Carme Besson fa aproximadament 8 anys Accions #59

Gràcies, Ferran. De moment deixem-ho així. Dilluns tenim reunió i si veiem que ens cal alguna altra dada ja t'ho diria.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #60

  • S'ha afegit relacionat amb Tasca #4614: Extracció automàtica de la base de dades de Scopus a partir de l'API

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #61

  • Estat ha canviat de En curs a Tancada

Tanquem la tasca amb felicitacions del Grup de Docència i Recerca per al Ferran i el Javier. Ara ja estudiarà el grup el repartiment d'aquestes càrregues.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #62

Vull aprofitar per publicar unes dades que crec que són il·lustratives. Pubmed allibera registres quan han expirat les dates d'embargament. Aquesta setmana, per exemple, hem pogut carregar registres nous d'anys anteriors i que han expirat. Les dates són, com sempre en el nostre cas, dates d'entrada a Pubmed, no dates de publicació:

És a dir, que en una setmana n'han entrat 142 de nous.

MJ Actualitzat per Marta Jordan fa quasi 8 anys Accions #63

El proper 4 de maig 2018 es reuniran les biblioteques afectades per la càrrega automàtica PubMed - DDD. Penjo el fitxer de les filiacions en format XLS per poder-hi treballar tots amb més comoditat

CA Actualitzat per Cristina Azorin fa quasi 8 anys Accions #64

  • S'ha afegit relacionat amb Tasca #4984: Validació dels articles Accés Obert de PubMed al DDD

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #65

  • Paraula clau s'ha suprimit (JR TLT)

CA Actualitzat per Cristina Azorin fa quasi 7 anys Accions #66

  • Data de venciment ha canviat de 28-06-2018 a 27-07-2017
  • Estat ha canviat de Tancada a En curs
  • Prioritat ha canviat de Normal a Alta

Ferran, si us plau, podries repetir el fitxer d'afiliacions per veure exactament com repartir els 700 que queden a https://ddd.uab.cat/collection/revisarcaraut?

Gràcies! Quan estigui fet pots passar la tasca a la Marta Jordan que repartirà el llistat i tancarà la tasca.

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #67

Ho he fet d'aquesta manera:

Trobar tots els $u de les 100 i les 700 de la col·lecció https://ddd.uab.cat/collection/revisarcaraut i desar el resultat a disc:

https://ddd.uab.cat/search?cc=revisarcaraut&of=tm&rg=999&ot=100%u,700%u

Des del shell, eliminar el que hi ha abans del $u, ordenar, comptar, i quedar-nos només amb el que es repeteixi més de 3 cops:

$ sed 's/^.*\$/$/' afiliacions.txt | sort | uniq -c | sort -nr | awk '$1 > 3' >afiliacions_a2019m6d25.txt

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #68

  • Assignat a ha canviat de Ferran Jorba a Marta Jordan

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #69

  • Assignat a ha canviat de Marta Jordan a Ferran Jorba

Hmmm. A aquesta llista d'afiliacions he vist algunes entrades sospitoses, perquè només diuen la ciutat i el país. Per exemple, les d'aquest registre:

https://ddd.uab.cat/record/190801

Si vistem l'enllaç de PubMed (al final del registre, on diu PMID), ens porta a la informació tal com apareix originàriament:

https://www.ncbi.nlm.nih.gov/pubmed/29712555

On efectivament, hi ha els noms de les institucions, no només l'adreça. I, de fet, en el format pmc, que és com el recollim via peticions OAI, també hi és:

https://www.ncbi.nlm.nih.gov/pmc/oai/oai.cgi?verb=GetRecord&metadataPrefix=pmc&identifier=oai:pubmedcentral.nih.gov:5925828

Cal repassar les afiliacions, doncs.

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #70

  • Assignat a ha canviat de Ferran Jorba a Marta Jordan

Crec que ja he trobat el què i ho he corregit. No eren tots, perquè alguns sí que tenien l'afiliació ben descrita (un a l'atzar: https://ddd.uab.cat/record/190792). Els registres que importem a partir d'ara tindran en compte un tipus de cas de codificació de la afiliació que el meu programa no convertia bé.

Si voleu, puc tornar a importar registres, però hauríem de veure com fer-ho. Per exemple, se m'acudeixen diferents opcions:

  1. La més fàcil: tots els que estan a https://ddd.uab.cat/collection/revisarcaraut, perquè encara no estan revisats.
  2. Més complicat: els que a la 979 tinguin AUTPUBMED, però només les 100 i 700 $u
  3. Els que reconvertint els registres amb l'actualització del programa donin un resultat diferent (amb unes $u més completes).
  4. Altres opcions?

En podem parlar per telèfon, també.

MJ Actualitzat per Marta Jordan fa més de 6 anys Accions #71

Hola Ferran!

Merci per les gestions. Sobre el txt de les filiacions, el que he fet ha estat passar-lo a Excel (es veu tot més bé que en un txt... sento estar venuda a les grans corporacions...) i he repolit la info, deixant només les filiacions on constés la UAB en qualsevol de les seves variants. Això ens permetrà seguir treballant.

Pel que fa a filiacions on només posa un nom de ciutat (Barcelona, Sabadell, Badalona) de moment les he eliminat de l'Excel. Totes aquestes quedaran pel final del final. Però ara per ara ens interessava generar un nou document per tenir una nova fotografia i seguir treballant.

Amb aquest nou Excel hem detectat que els registres que queden "pertanyen" a la Biblioteca de Medicina. Per tant, els companys de la BM treballaran sobre aquest Excel durant els propers mesos...

Fins ara, a mida que hem anat processant registres ja ens hem trobat molts que havien entrat amb el nom de la ciutat només (tot i que a Pubmed constés la filiació sencera) i els hem anat arreglant a mida que validàvem els registres (són tots els que estaven com a "Bellaterra" o "Cerdanyola del Vallès", que n'hi havia uns quants).

T'agraeixo que ho hagis arreglat de cara a les noves incorporacions, però, ara per ara, no et preocupis pels que es troben a la bossa REVISARCARAUT, perquè tenim material per treballar durant un temps més.

MJ Actualitzat per Marta Jordan fa més de 6 anys Accions #72

  • Estat ha canviat de En curs a Tancada

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #73

  • S'ha afegit relacionat amb Tasca #5166: Afegir etiqueta 979 a les càrregues de Pubmed

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #74

  • S'ha afegit relacionat amb Tasca #5578: Continuar amb la càrrega de PubMed malgrat els errors de connexió

FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #75

Repassant un tema de duplicats, me n'he adonat que a Pubmed hi ha, al menys ara, informació sobre finançament dels articles. Potser abans també hi era i no ho vaig saber veure.

A partir d'ara, a les noves càrregues, aquesta informació ja apareixerà a la 536, i formatejat com sempre (info:eu-repo, etc).

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #76

  • S'ha afegit relacionat amb Tasca #6690: Adaptar la recol·lecció automàtica de Pubmed als canvis de desembre del 2021
Accions

També disponible a: PDF Atom