Tasca #867
tancatCàrrega dels articles de PubMed d'autors de la UAB
Descripció
PubMed permet l'arxiu dels seus articles als dipòsits institucionals.
S'hauria de mirar de carregar automàticament els registres en que aparegui algun autor de la UAB a PubMed: http://www.ncbi.nlm.nih.gov/pubmed
A data d'avui fent la cerca per "universitat autònoma barcelona" apareixen 5.415 referències
Fitxers
Tasques relacionades 9 (0 obertes — 9 tancades)
CA Actualitzat per Cristina Azorin fa més de 11 anys
- S'ha actualitzat Descripció (diferències)
- Data de venciment s'ha establert a 18-06-2015
- Prioritat ha canviat de Baixa a Normal
CA Actualitzat per Cristina Azorin fa aproximadament 11 anys
- Paraula clau s'ha establert a JR
CA Actualitzat per Cristina Azorin fa aproximadament 11 anys
- Temàtica prevista ha canviat de Noves càrregues de col·leccions o documents a Millores respecte a la producció científica de la UAB
CA Actualitzat per Cristina Azorin fa més de 10 anys
- Data de venciment ha canviat de 18-06-2015 a 18-06-2016
- Categoria s'ha establert a Suport a docència i recerca
CA Actualitzat per Cristina Azorin fa quasi 10 anys
- Prioritat ha canviat de Normal a Alta
CA Actualitzat per Cristina Azorin fa quasi 10 anys
- Data de venciment ha canviat de 18-06-2016 a 18-09-2016
- Inici s'ha establert a 18-06-2016
CA Actualitzat per Cristina Azorin fa més de 9 anys
- Assignat a ha canviat de Ferran Jorba a Marta Jordan
Aquesta tasca s'assigna a la Marta Jordan per a que estudiï les diferents possibilitats d'exportació d'articles des del PubMed Central (articles publicats per investigadors d'Estats Units en full text):
- Primer de tot cal mirar les opcions de cerca i de formats d'exportació de PubMed i de PubMed Central. Perquè tot i que pensem que seria millor anar directament a PubMed Central (que no té registres de referència) sembla que PubMed dóna una sortida de dades més completa.
- Dels articles publicats a Pubmed Central, quants són susceptibles de ser UAB? Ara mateix quants articles es podrien carregar. La Marta farà una cerca concreta amb números genèrics i amb el filtre de 'full text' o millor d'accés obert (si pogués ser).
- Quina diferència hi ha entre Pubmed Central i EuropePMC? De quins dels dos s'haurien de fer les descàrregues?
- Cal detectar possibles problemes d'afiliacions.
- Cal establir si seria millor un sistema que descarregués automàticament tots els registres resultants de la cerca o si seria millor establir una passarel·la que permetés entrar els registres un a un.
- Pubmed central dóna permisos genèrics per a dipòsits institucionals?
- Les alertes de noves entrades arriben per correu, però hi ha alguna API que permeti les exportacions de dades? (http://www.ncbi.nlm.nih.gov/pmc/tools/developers/)
CA Actualitzat per Cristina Azorin fa més de 9 anys
- Data de venciment ha canviat de 18-09-2016 a 30-11-2016
CA Actualitzat per Cristina Azorin fa aproximadament 9 anys
- Data de venciment ha canviat de 30-11-2016 a 01-06-2017
MJ Actualitzat per Marta Jordan fa aproximadament 9 anys
- S'ha afegit Fitxer Cerca PubMed_PMC_EPMC.docx Cerca PubMed_PMC_EPMC.docx
Hola!
Adjunto un document on s'analitzen diversos aspectes del que vam parlar a la trobada de l'estiu passat (perdoneu el retard!)
Abans de què us el mireu, agrairia que em truquéssiu un moment, per explicar-vos un parell de coses a tenir en compte...
Gràcies!
CA Actualitzat per Cristina Azorin fa aproximadament 9 anys
- Assignat a ha canviat de Marta Jordan a Ferran Jorba
CA Actualitzat per Cristina Azorin fa quasi 9 anys
Ara també és pot lligar a la inversa el DDD pot aparèixer a Pubmed https://unavdadun.wordpress.com/2017/03/27/repositorios-institucionales-en-pubmed/
Informació per demanar-ho:
https://www.ncbi.nlm.nih.gov/projects/linkout/doc/IR-application.shtml
PR Actualitzat per Pere Roca fa quasi 9 anys
- Prioritat ha canviat de Alta a Urgent
JP Actualitzat per Javier Planella fa quasi 9 anys
- Assignat a ha canviat de Ferran Jorba a Javier Planella
FJ Actualitzat per Ferran Jorba fa quasi 9 anys
Amb el Javier hem estat avançant en diferents fronts.
1. Identificació dels registres amb autors de la UAB. A partir de la (llarguíssima) cerca que ens ha preparat la Marta, el Javier ha preparat un script que fa les cerques per anys i retorna els PMIDs d'aquests registres. Creiem que és millor fer-ho per data d'entrada a PubMed, no per data de publicació de l'article, perquè podem anar segmentant i tancant anys.
2. Hem d'acabar d'esbrinar si és possible afinar la cerca perquè inclogui els registres que tinguin text complet i/o que puguem incorporar al DDD.
3. De la llista dels PMIDs, descartarem els que ja tenim al DDD, i ens quedem amb els que no tenim.
4. A hores d'ara estem mirant quina és la millor estratègia per recuperar el registre bibliogràfic d'aquests articles. Hem estat estudiant diferents estratègies.
a. Pel servidor OAI. Després d'algunes proves i errors, hem après que l'identificador del registre no és el PMID, sinó el PMC. A resultes de la tasca #2813, ja en tenim un fitxer amb les equivalències, que actualitzem automàticament un cop al mes.
Vegem-ne algun exemple: el registre https://ddd.uab.cat/record/175912 té el PMID 26919668. A partir del fitxer d'equivalències, sabem que el PMC és el 4769067. Amb aquest identificador podem accedir, via OAI, al registre en tres formats diferents: Dublin Core i dues variants de pmc (que deu ser PubMedCentral):
Si els examinem, veurem això:
- https://www.ncbi.nlm.nih.gov/pmc/oai/oai.cgi?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:pubmedcentral.nih.gov:4769067
- https://www.ncbi.nlm.nih.gov/pmc/oai/oai.cgi?verb=GetRecord&metadataPrefix=pmc&identifier=oai:pubmedcentral.nih.gov:4769067
- https://www.ncbi.nlm.nih.gov/pmc/oai/oai.cgi?verb=GetRecord&metadataPrefix=pmc_fm&identifier=oai:pubmedcentral.nih.gov:4769067
b. Sembla que hi ha una altra manera, a través del seu servidor ftp:
ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/ (no feu clic als fitxers, que són tan grans que es penja el navegador!)
Hi ha uns fitxers (oa_comm_use_file_list.{csv,txt}, oa_file_list.{csv,txt}, oa_non_comm_use_pdf.{csv,txt} amb unes adreces del tipus ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/c1/d0/ i amb uns fitxers que (sembla) que tenen la mateixa informació que el servidor OAI.
Ara es tracta d'explorar quina és la manera que ens va millor per obtenir el registre i el pdf.
5. Per més endavant, quan tinguem més clars els punts anteriors, mirarem quina estratègia seguim per carregar-los al DDD. Podriem passar-los a la col·lecció revisar, o utilitzar la interfíce d'idregistres.py. Ja tindrem ocasió d'anar-ho valorant.
FJ Actualitzat per Ferran Jorba fa quasi 9 anys
- Tema ha canviat de Cárrega dels articles de PubMed d'autors de la UAB a Càrrega dels articles de PubMed d'autors de la UAB
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Data de venciment ha canviat de 01-06-2017 a 16-10-2017
JP Actualitzat per Javier Planella fa més de 8 anys
- Paraula clau ha canviat de JR a JR TLT
Programat pubmed.py, de tal manera que de moment retorna els pmids de pubmed que no estan al DDD.
Per exemple:
de la cerca: pubmed.py 2012
el PMID "23251417" ja esta al DDD i no el retorna
Respecte a descarregar-se el registre:
- des de la interfície d'OAI obtenim les dades del registre bibliogràfic
- amb el fitxer ftp (ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_file_list.txt), mitjançant el identificador PMID podem descarregar-nos el .pdf a text complet sense necessitat d'anar a la plataforma de l'editor.
Per exemple per al PMID 23271952 (PMC 3525531)
(https://www.ncbi.nlm.nih.gov/pubmed/23271952)
les dades del registre en DC:
a la línia:
<dc:identifier> http://dx.doi.org/10.1371/journal.pbio.1001448 </dc:identifier>
es un enllaç a l'editor que porta a:
http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1001448
i es pot descarregar el .pdf del text complet
aquest mateix pdf està al servidor pubmed:
ftp: //ftp.ncbi.nlm.nih.gov/pub/pmc/...
Per obtenir el .pdf, en el fitxer:
ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_file_list.txt
tenim la ruta per descarregar el .pdf comprimit:
oa_package/e6/53/PMC3525531.tar.gz PLoS One. 2016 Feb 26; 11 (2):e0150539 PMC4769067 PMID:26919668 CC BY
la ruta completa és:
ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/e6/53/PMC3525531.tar.gz
un cop descomprimit tenim el .pdf: pbio.1001448.pdf
També el tenim a: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3525531/pdf/pbio.1001448.pdf (amb el DOI)
No tots els PMID estan disponibles a oa_file_lists.txt.
Per exemple 23263540:
https://www.ncbi.nlm.nih.gov/pubmed/?term=23263540
és una publicació que és de pagament:
https://link.springer.com/article/10.1007%2Fs00702-012-0949-x
Per exemple 23265690:
https://www.ncbi.nlm.nih.gov/pubmed/?term=23265690
és una publicació que requereix login/subscripció:
http://www.arthroscopyjournal.org/article/S0749-8063(12)01657-X/fulltext
només són accessibles a text complet aquells registres que tenen el PMID a oa_file_list.txt i que d'alguna manera són d'accés lliure(?)
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Estat ha canviat de Creada a En curs
Estem mirant els articles de Pubmed de 2016, hi ha 2751 seguint la cerca que va fer la Marta. D'aquests més de 700 estan en accés obert i podem extreure el pdf. Actualment al DDD d'aquest mateix any hi ha un centenar ja entrats. La càrrega amb la que començaríem seria de 680 articles.
Caldria estudiar on els descarreguem per a no col·lapsar la bústia de revisió de medicina, i si en fem un repartiment per biblioteques. Tot i que això millor valorar-ho quan veiem la qualitat de l'exportació.
JP Actualitzat per Javier Planella fa més de 8 anys
Programat pubmed.py
Aquest programa baixa el baixa el .pdf (text complet) i .pmc (descipció en XML) dels articles que estan en accés obert
Per exemple executar pubmed 2016:- Llegeix els pmids de ddd@taltabull:~/importacions/pubmed/pmids@pubmed_a2016.xml
- Comprova si estan d'accés lliure
- Comprova si estan al DDD. Si no es així llavors baixa el .pdf (text complet) i .pmc (descripció en XML) i els deixa a ddd@taltabull:~/importacions/pubmed
- Per aquest any hi han 680 articles
JP Actualitzat per Javier Planella fa més de 8 anys
- Assignat a ha canviat de Javier Planella a Ferran Jorba
JP Actualitzat per Javier Planella fa més de 8 anys
Un cop descarregats els .pdf i el registres XML Ferran Jorba farà la conversió de dades a Marc21
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Acabo de fer una primera càrrega, provisional, al DDD de proves, de 361 articles del PMC del 2015 a https://ddd-test.uab.cat/collection/artpub. Els PDFs els tenim però no els he enllaçat, per això no es veuen les miniatures.
(Si no es veuen de seguida, es veuran en una estoneta...)
CA Actualitzat per Cristina Azorin fa més de 8 anys
Perdona Ferran, com els puc veure, en entrar al DDD de proves els primers registres que apareixen són els de Wormwood...
CA Actualitzat per Cristina Azorin fa més de 8 anys
Val, ara he vist la teva nota entre parèntesis, perdona la meva impaciència ;-)
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Assignat a ha canviat de Ferran Jorba a Marta Jordan
Moltes gràcies Ferran i Javier, penso que el resultat, per ser automàtic, és molt bo. Hi ha feina manual que és difícil que ens pugueu estalviar, l'única que se m'acut són les paraules clau, que generalment estan a la pàgina, no hi ha manera de capturar-les?
Perquè en alguns casos hi ha els drets (https://ddd-test.uab.cat/record/172941) i en d'altres no (https://ddd-test.uab.cat/record/172939) ?
Com a canvi global es podrien afegir alguns dels requeriments d'OpenAIRE com el tipus de document. També per defecte es podria posar l'anglès (com a 546) i modificar-ho només si fos diferent. La 980 hauria de contenir un $b UAB
El personal de biblioteques hauria de:
1. repassar les afiliacions, potser hi ha casos en que són organismes de CSIC situats al campus https://ddd-test.uab.cat/record/172957 o que l'entrada és massa llarga i inclou el departament https://ddd-test.uab.cat/record/172939
2. Arreglar la referencia, per exemple, afegint el número de pàgina, si n'hi ha.
3. Afegir les paraules clau
Marta, podries fer un cop d'ull a veure què et sembla???
FJ Actualitzat per Ferran Jorba fa més de 8 anys
- Assignat a ha canviat de Marta Jordan a Ferran Jorba
Cristina Azorin va escriure:
Moltes gràcies Ferran i Javier, penso que el resultat, per ser automàtic, és molt bo. Hi ha feina manual que és difícil que ens pugueu estalviar, l'única que se m'acut són les paraules clau, que generalment estan a la pàgina, no hi ha manera de capturar-les?
Sí, les paraules claus les inclouré a la propera (re)càrrega, en principi he de poder sense problemes.
Perquè en alguns casos hi ha els drets (https://ddd-test.uab.cat/record/172941) i en d'altres no (https://ddd-test.uab.cat/record/172939) ?
Gràcies per fixar-t'hi, ho corregiré. Els registres no són del tot uniformes, de vegades hi ha camps que estan codificats d'una manera i d'altres d'una altra. M'acabo de mirar l'exemple que em dones i veig que la els drets hi són però codificats en un altre lloc, ja m'hi poso....
Com a canvi global es podrien afegir alguns dels requeriments d'OpenAIRE com el tipus de document. També per defecte es podria posar l'anglès (com a 546) i modificar-ho només si fos diferent. La 980 hauria de contenir un $b UAB
D'acord a tots dos, m'ho miro.
El personal de biblioteques hauria de:
1. repassar les afiliacions, potser hi ha casos en que són organismes de CSIC situats al campus https://ddd-test.uab.cat/record/172957 o que l'entrada és massa llarga i inclou el departament https://ddd-test.uab.cat/record/172939
Pel que fa al tema de les afiliacions, estic pensant en una política global que permeti garantir la homogeneïtat. Per exemple, en una pàgina del wiki, com les taules RecercatEquivalenciaDelsOAIsetsAlDDD. Potser una taula no aniria bé perquè, justament, són molt llargues, però sí alguna mena de llista. Així, si ens apareix una afiliació no normalitzada, la podríeu afegir allà i l'endemà el registre estaria corregit.
2. Arreglar la referencia, per exemple, afegint el número de pàgina, si n'hi ha.
Ah, veus? No m'hi havia fixat, miraré si hi és.
3. Afegir les paraules clau
Sí, aquesta sí.
Marta, podries fer un cop d'ull a veure què et sembla???
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Crec que totes les millores ja estan fetes i, a més, hi he pogut posar els orcid quan hi són. Tinc un incident, que haurem de comentar, quan hi ha més d'una nota de drets.
FJ Actualitzat per Ferran Jorba fa més de 8 anys
He fet una càrrega nova amb 643 articles del 2016, amb totes les millores i amb més d'una etiqueta de notes si n'hi ha més d'una en el registre original:
https://ddd-test.uab.cat/collection/artpub
Després posaré algun exemple i comentarem les afiliacions.
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Anem bé. El primer que es veu dels nous no té abstract: https://ddd-test.uab.cat/record/173790. Me'l miraré, és clar.
FJ Actualitzat per Ferran Jorba fa més de 8 anys
- S'ha afegit Fitxer afiliacions.txt afiliacions.txt
Sobre les afiliacions. Havent processat prop de 1200 registres bibliogràfics dels anys 2015 i 2016, la UAB aparareix en unes 868 maneres diferents, algunes de les quals desenes o (en un cas) centenars de vegades. Adjunto en el fitxer afiliacions.txt les que apareixen 4 o més cops.
Jo crec que, per estalviar una feina absolutament repetitiva, valdria la pena crear una pàgina wiki amb les equivalències entre les diferents formes que ens trobem aquestes afiliacions i la normalitzada que volem nosaltres. Així, les correccions serien automàtiques.
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Ferran Jorba va escriure:
Anem bé. El primer que es veu dels nous no té abstract: https://ddd-test.uab.cat/record/173790. Me'l miraré, és clar.
Ja hi és. Certament, la codificació dels registres no és ben bé homogènia. Si trobeu altres irregularitats, si us plau aviseu-me, que se m'en poden haver escapat d'altres.
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Per anar provant el conversor, he anat carregant anys, sempre registres que no tenim al DDD (de proves, en aquest cas). Ara mateix, a https://ddd-test.uab.cat/collection/artpub hi ha els del 2016 fins el 2013.
FJ Actualitzat per Ferran Jorba fa més de 8 anys
- S'ha afegit relacionat amb Tasca #4742: Com carreguem els articles de Pubmed?
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Hi he afegit els 85 registres del 2012 i els 70 del 2011. Registres amb text complet, amb llicència oberta i que no tenim ja al DDD (de proves).
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Els registres que podem reutilitzar, per anys, són:
- 2017: 581 (provisional, fins a començaments de novembre)
- 2016: 689
- 2015: 553
- 2014: 353
- 2013: 141
- 2012: 85
- 2011: 70
- 2010: 32
- 2009: 34
- 2008: 13
- 2007: 8
- 2006: 5
- 2005: 3
- 2004: 1
- 2003: 1
- 2002: 2
- 2001: 0
- 2000: 0
Total: 2571
En els propers minuts els acabaré de carregar tots al DDD de proves, col·lecció https://ddd-test.uab.cat/collection/artpub
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Una nota pel que fa a la xifra de registres que he estat donant fins ara. El comportament d'Invenio per identificar registres nous és si coincideix l'etiqueta 001 o la 035. Resulta que ni el DOI ni el PMID van a aquestes etiquetes, sinó a la 024 (exemple: https://ddd.uab.cat/record/181904/export/hm).
Cal doncs que el programa de conversió afini més que Invenio i que no carregui registres nous si ja n'existeix algun amb el DOI o el PMID.
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Data de venciment ha canviat de 16-10-2017 a 20-12-2017
- Assignat a ha canviat de Ferran Jorba a Marta Jordan
La part informàtica ja està enllestida ara queda, tenir l'aprovació dels gestors de docència i recerca, especialment de la Marta Jordan i decidir i crear la col·lecció específica per revisar els registres (tasca #4742).
MJ Actualitzat per Marta Jordan fa més de 8 anys
Bon dia!
He estat revisant la càrrega d'articles de PubMed al DDD-test. Abans de res, he de dir que l'estalvi de feina que ens suposa a les biblioteques aquesta càrrega automàtica és impressionant. Jo ara comentaré una sèrie d'aspectes per saber si es poden automatitzar. Si no fos possible automatitzar-los tots, o alguns, no hi hauria cap problema en realitzar-los manualment, perquè ja tindrem moltíssima feina feta.
Veureu que alguns d'aquests aspectes ja els heu anat comentant al llarg de la tasca:
1. El text de les llicències està en anglès (etiqueta 546), seria possible que la 546 sortís automàticament en català?
2. Alguns registres no tenen la llicència. Exemples:
https://ddd-test.uab.cat/record/175165
https://ddd-test.uab.cat/record/175162
3. En un punt de la tasca, es comentava que les pàgines dels articles no apareixien. Això s'ha solventat, però quan no hi ha paginació i el que hi ha és el núm. d'article, aquesta dada no apareix al registre DDD. Exemples:
https://ddd-test.uab.cat/record/175165
https://ddd-test.uab.cat/record/175161
https://ddd-test.uab.cat/record/175155
https://ddd-test.uab.cat/record/175091
Si aneu al registre PubMed d'aquests articles, veureu que enlloc de pàgines apareix el núm. de l'article. Seria possible que aquesta dada s'inclogués al registre, tal i com s'ha fet amb les pàgines?
4. Comenteu que no s'han carregat registres duplicats, és a dir, que si l'article ja es trobava al DDD, aquest no s'ha carregat. A mi m'ha semblat veure que sí que s'han carregat registres que ja es trobaven al DDD, però no sé si ho miro bé. Us poso un parell d'exemples i ja confirmareu si m'equivoco o no:
Entrat al DDD: https://ddd.uab.cat/record/170647
Carregat del PubMed: https://ddd-test.uab.cat/record/174542
Entrat al DDD: https://ddd.uab.cat/record/170651
Carregat del PubMed: https://ddd-test.uab.cat/record/173498
5. Pel que fa a les filiacions: si és possible automatitzar alguna part d'aquest procés penso que, com a mínim, caldria intentar unificar de manera automàtica les filiacions corresponents a la UAB. Si hi ha la possibilitat de corregir automàticament les filiacions més "recurrents", perfecte. Ja ens indicareu si, en aquest aspecte concret, hem de fer alguna tasca específica.
6. Pel que fa a la possibilitat de refinar més la cerca a PubMed d'on s'obtenen aquests articles: he vist que comentàveu que apareixien articles de l'IFAE o CSIC que són institucions que es troben al Campus, tot i que no són UAB, i comentaveu la possibilitat de repolir l'estratègia de cerca per tal que aquests articles no apareguessin. Es podria intentar un refinament, però cal tenir present que, si ho fem, també desapareixeran articles que, per exemple, ha publicat algú d'un centre CSIC del Campus en col·laboració amb algun investigador d'un departament o centre de recerca de la UAB. No sé si m'explico... vull dir que podrien eliminar-se articles on, a banda d'aquests centres, també hi aparegués la UAB pròpiament com a coautora...
En principi, aquests són els aspectes a comentar sobre aquesta tasca. Moltes gràcies a tots per la feina que heu estat fent!
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Assignat a ha canviat de Marta Jordan a Ferran Jorba
- Prioritat ha canviat de Urgent a Immediata
Ja he creat la col·lecció on han d'anar a parar els registres d'aquestes càrregues:
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Ja hem fet una primera càrrega de tots els registres fins el 2010 inclòs (https://ddd.uab.cat/collection/revisarcaraut).
Falta:
- Normalitzar les afiliacions de la UAB més comunes.
- Falta automatitzar les càrregues, perquè vagin al dia, però ho farem quan hàgim acabat de fer els registres retrospectius. Ho fem en aquest ordre perquè els més recents apareguin a dalt de tot.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Cal continuar aquestes càrregues retrospectives, des del 2011 al 2017, per després deixar que es facin automàticament les de l'any actual (que serà el 2018).
Cal repassar la resta dels temes de la nota anterior.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- Data de venciment ha canviat de 20-12-2017 a 28-06-2018
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- Assignat a ha canviat de Ferran Jorba a Carme Besson
- Prioritat ha canviat de Immediata a Normal
El grup de Docència i Recerca ha de decidir si vol augmentar el nombre d'articles carregats i que es vagi fent ja de manera automàtica a partir d'ara.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- S'ha afegit copiada a Tasca #4844: Normalitzar les afiliacions de la UAB més comunes en els documents
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- Assignat a ha canviat de Carme Besson a Ferran Jorba
En reunió del dia 25 de gener s'estableix que es farà la càrrega de tot el retrospectiu i ja es posarà al dia per a que es vagi fent automàticament.
Les biblioteques més implicades decidiran en quina mesura van treballant amb aquests registres.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Ahir vaig carregar els del 2011, i avui els del 2012. Però acabo de veure'n algun que clarament està malament:
Si us plau, no treballeu amb aquests registres ni els que estiguin malament, perquè vol dir que he de corregir el convertidor i m'interessa no perdre els casos. Gràcies.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Ja he corregit els registres mal convertits. La causa era que el servidor de proves (Taltabull) tenia unes versions diferents d'unes utilitats que no a Mompou, i per tant ho entenien diferent.
D'altra banda, i donat que hi ha articles antics que es van alliberant i queden oberts (p. ex., si hi ha un embargament), i que PubMed els ofereix en text complet, el que acabo de fer és que sempre repassi des de l'any actual (en aquest cas, el 2011) fins al 2000, retrospectivament, per si n'hi ha algun que abans no era d'accés o obert i ara sí i, si el troba, també el carrega al DDD i el deixarà a https://ddd.uab.cat/collection/revisarcaraut.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Ja estan carregat els del 2013 i 2014. En vaig fent un any per dia, més o menys.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Carregats els del 2015.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Avui m'ha fallat la càrrega del 2016 per una badada, i l'he reprogramada per demà a la matinada. (Ho deixo aquí apuntat per si demà me n'oblido).
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Carregats els del 2017.
CB Actualitzat per Carme Besson fa aproximadament 8 anys
Moltes gràcies, Ferran.
Ara que ja en tenim un bon gruix podries fer un parell de coses més:
- Treure un altre TXT amb les filiacions de la UAB per a tots els anys
- Treure un altre TXT pels títols de revistes també per tots els anys
Gràcies!
Carme
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Ja estan tots carregats, i programat perquè cada dilluns es carreguin els nous, i els antics que s'hagin desembargat segons la gestió que ja en fa la base de dades Pubmed.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Carme Besson va escriure:
- Treure un altre TXT amb les filiacions de la UAB per a tots els anys
- Treure un altre TXT pels títols de revistes també per tots els anys
Correcte, queda pendent.
CB Actualitzat per Carme Besson fa aproximadament 8 anys
Hola Ferran,
Creus que podríem tenir els dos llistats per aquest divendres a darrera hora o dilluns a primeríssima hora del matí? És que dilluns tenim reunió de SDR i ens aniria bé.
Gràcies!
Carme
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Carme Besson va escriure:
Creus que podríem tenir els dos llistats per aquest divendres a darrera hora o dilluns a primeríssima hora del matí? És que dilluns tenim reunió de SDR i ens aniria bé.
Sí, compto que sí. Avui no podré dedicar-m'hi, però procuraré posar-m'hi demà a primera hora.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
- S'ha afegit Fitxer revistes_a2018m3d2.txt revistes_a2018m3d2.txt
- S'ha afegit Fitxer afiliacions_a2018m3d2.txt afiliacions_a2018m3d2.txt
Carme,
pel que fa a la llista de les revistes i afiliacions, ho he calculat a partir dels 1330 registres que ara mateix formen part de la col·lecció https://ddd.uab.cat/collection/revisarcaraut, és a dir, dels que no teníem ja al DDD. Si t'interessa que ho faci sobre els 2513 que ens hem descarregat (és a dir, que confirma que ja en teníem aproximadament la meitat), diga-m'ho que també t'ho faig.
CB Actualitzat per Carme Besson fa aproximadament 8 anys
Gràcies, Ferran. De moment deixem-ho així. Dilluns tenim reunió i si veiem que ens cal alguna altra dada ja t'ho diria.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- S'ha afegit relacionat amb Tasca #4614: Extracció automàtica de la base de dades de Scopus a partir de l'API
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- Estat ha canviat de En curs a Tancada
Tanquem la tasca amb felicitacions del Grup de Docència i Recerca per al Ferran i el Javier. Ara ja estudiarà el grup el repartiment d'aquestes càrregues.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Vull aprofitar per publicar unes dades que crec que són il·lustratives. Pubmed allibera registres quan han expirat les dates d'embargament. Aquesta setmana, per exemple, hem pogut carregar registres nous d'anys anteriors i que han expirat. Les dates són, com sempre en el nostre cas, dates d'entrada a Pubmed, no dates de publicació:
- 2012: 1 registre (https://ddd.uab.cat/record/187823)
- 2014: 2 registres (https://ddd.uab.cat/record/187824 i https://ddd.uab.cat/record/187825)
- 2015: 3 registres (https://ddd.uab.cat/record/187826, https://ddd.uab.cat/record/187827 i https://ddd.uab.cat/record/187828)
- 2016: 2 registres (https://ddd.uab.cat/record/187829 i https://ddd.uab.cat/record/187830)
- 2017: 13 registres (del https://ddd.uab.cat/record/187831 al https://ddd.uab.cat/record/187843)
- 2018: 121 registres nous, probablement cap a resultes d'un embargament, però sí que pot ser significatiu de quants n'entren de nous en una setmana (del https://ddd.uab.cat/record/187844 al https://ddd.uab.cat/record/187905)
És a dir, que en una setmana n'han entrat 142 de nous.
MJ Actualitzat per Marta Jordan fa quasi 8 anys
- S'ha afegit Fitxer Filiacions_a2018m3d2.xlsx Filiacions_a2018m3d2.xlsx
El proper 4 de maig 2018 es reuniran les biblioteques afectades per la càrrega automàtica PubMed - DDD. Penjo el fitxer de les filiacions en format XLS per poder-hi treballar tots amb més comoditat
CA Actualitzat per Cristina Azorin fa quasi 8 anys
- S'ha afegit relacionat amb Tasca #4984: Validació dels articles Accés Obert de PubMed al DDD
CA Actualitzat per Cristina Azorin fa aproximadament 7 anys
- Paraula clau s'ha suprimit (
JR TLT)
CA Actualitzat per Cristina Azorin fa quasi 7 anys
- Data de venciment ha canviat de 28-06-2018 a 27-07-2017
- Estat ha canviat de Tancada a En curs
- Prioritat ha canviat de Normal a Alta
Ferran, si us plau, podries repetir el fitxer d'afiliacions per veure exactament com repartir els 700 que queden a https://ddd.uab.cat/collection/revisarcaraut?
Gràcies! Quan estigui fet pots passar la tasca a la Marta Jordan que repartirà el llistat i tancarà la tasca.
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- S'ha afegit Fitxer afiliacions_a2019m6d25.txt afiliacions_a2019m6d25.txt
Ho he fet d'aquesta manera:
Trobar tots els $u de les 100 i les 700 de la col·lecció https://ddd.uab.cat/collection/revisarcaraut i desar el resultat a disc:
https://ddd.uab.cat/search?cc=revisarcaraut&of=tm&rg=999&ot=100%u,700%u
Des del shell, eliminar el que hi ha abans del $u, ordenar, comptar, i quedar-nos només amb el que es repeteixi més de 3 cops:
$ sed 's/^.*\$/$/' afiliacions.txt | sort | uniq -c | sort -nr | awk '$1 > 3' >afiliacions_a2019m6d25.txt
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- Assignat a ha canviat de Ferran Jorba a Marta Jordan
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- Assignat a ha canviat de Marta Jordan a Ferran Jorba
Hmmm. A aquesta llista d'afiliacions he vist algunes entrades sospitoses, perquè només diuen la ciutat i el país. Per exemple, les d'aquest registre:
https://ddd.uab.cat/record/190801
Si vistem l'enllaç de PubMed (al final del registre, on diu PMID), ens porta a la informació tal com apareix originàriament:
https://www.ncbi.nlm.nih.gov/pubmed/29712555
On efectivament, hi ha els noms de les institucions, no només l'adreça. I, de fet, en el format pmc, que és com el recollim via peticions OAI, també hi és:
Cal repassar les afiliacions, doncs.
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- Assignat a ha canviat de Ferran Jorba a Marta Jordan
Crec que ja he trobat el què i ho he corregit. No eren tots, perquè alguns sí que tenien l'afiliació ben descrita (un a l'atzar: https://ddd.uab.cat/record/190792). Els registres que importem a partir d'ara tindran en compte un tipus de cas de codificació de la afiliació que el meu programa no convertia bé.
Si voleu, puc tornar a importar registres, però hauríem de veure com fer-ho. Per exemple, se m'acudeixen diferents opcions:
- La més fàcil: tots els que estan a https://ddd.uab.cat/collection/revisarcaraut, perquè encara no estan revisats.
- Més complicat: els que a la 979 tinguin AUTPUBMED, però només les 100 i 700 $u
- Els que reconvertint els registres amb l'actualització del programa donin un resultat diferent (amb unes $u més completes).
- Altres opcions?
En podem parlar per telèfon, també.
MJ Actualitzat per Marta Jordan fa més de 6 anys
- S'ha afegit Fitxer filiacions_a2019m6d25.xlsx filiacions_a2019m6d25.xlsx
Hola Ferran!
Merci per les gestions. Sobre el txt de les filiacions, el que he fet ha estat passar-lo a Excel (es veu tot més bé que en un txt... sento estar venuda a les grans corporacions...) i he repolit la info, deixant només les filiacions on constés la UAB en qualsevol de les seves variants. Això ens permetrà seguir treballant.
Pel que fa a filiacions on només posa un nom de ciutat (Barcelona, Sabadell, Badalona) de moment les he eliminat de l'Excel. Totes aquestes quedaran pel final del final. Però ara per ara ens interessava generar un nou document per tenir una nova fotografia i seguir treballant.
Amb aquest nou Excel hem detectat que els registres que queden "pertanyen" a la Biblioteca de Medicina. Per tant, els companys de la BM treballaran sobre aquest Excel durant els propers mesos...
Fins ara, a mida que hem anat processant registres ja ens hem trobat molts que havien entrat amb el nom de la ciutat només (tot i que a Pubmed constés la filiació sencera) i els hem anat arreglant a mida que validàvem els registres (són tots els que estaven com a "Bellaterra" o "Cerdanyola del Vallès", que n'hi havia uns quants).
T'agraeixo que ho hagis arreglat de cara a les noves incorporacions, però, ara per ara, no et preocupis pels que es troben a la bossa REVISARCARAUT, perquè tenim material per treballar durant un temps més.
MJ Actualitzat per Marta Jordan fa més de 6 anys
- Estat ha canviat de En curs a Tancada
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
- S'ha afegit relacionat amb Tasca #5166: Afegir etiqueta 979 a les càrregues de Pubmed
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
- S'ha afegit relacionat amb Tasca #5578: Continuar amb la càrrega de PubMed malgrat els errors de connexió
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Repassant un tema de duplicats, me n'he adonat que a Pubmed hi ha, al menys ara, informació sobre finançament dels articles. Potser abans també hi era i no ho vaig saber veure.
A partir d'ara, a les noves càrregues, aquesta informació ja apareixerà a la 536, i formatejat com sempre (info:eu-repo, etc).
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys
- S'ha afegit relacionat amb Tasca #6690: Adaptar la recol·lecció automàtica de Pubmed als canvis de desembre del 2021