Projecte

General

Perfil

Accions

Tasca #5537

tancat
FJ FJ

Canviar el format nlm per un altre per recol·lectar d'OJS a partir de la versió 3

Tasca #5537: Canviar el format nlm per un altre per recol·lectar d'OJS a partir de la versió 3

Afegit per Ferran Jorba fa més de 6 anys. Actualitzat fa quasi 5 anys.

Estat:
Tancada
Prioritat:
Alta
Assignat a:
Categoria:
Tecnologia
Temàtica prevista:
Inici:
04-12-2019
Data de venciment:
Paraula clau:
JR

Descripció

Fins ara haviem estat utilitzant el format nlm per recol·lectar la informació bibliogràfia dels OJS dels que recol·lectem (revistes de la UAB i Racó).

A partir de la versió 3 ja no exporten en aquest format, perquè diuen que tampoc no estava ben implementat:

https://forum.pkp.sfu.ca/t/harvesting-ojs3-with-oai-nlm/29356/2

Nosaltres l'haviem triat perquè era el que tenia els camps més semblants als del Marc21. Ara haurem de triar-ne un altre, o més d'un, complementant la informació de més d'un (de fet, això ja ens passava, que amb el nlm no en teniem prou i algun camp l'anàvem a buscar a algun altre lloc).

CA Actualitzat per Cristina Azorin fa més de 6 anys Accions #1

  • Paraula clau s'ha establert a JR

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #2

A partir d'unes converses amb en Marc Bria, del Servei de Publicacions, vam escriure aquest correu al CSUC, de moment sense resposta, malgrat que hem anat insistint que ho tenim encallat.

From: Ferran Jorba <>
To: Sandra Reoyo <>
Cc: Cristina Azorin <>, Marc Bria <>
Subject: Instal·lar el plugin JATS per la sortida OAI de Racó
Date: Mon, 9 Dec 2019 12:29:36 +0100
Organization: Universitat Autonoma de Barcelona

Bon dia, Sandra,

continuant amb el tema de la desaparició del format nlm a la sortida
OAI de Racó, i comentant-ho amb en Marc Bria, del Servei de
Publicacions de la UAB, que també tenen un munt d'instal·lacions OJS,
m'ha parlat del plugin JATS.

Segons les seves paraules,

Es fàcil d'instal·lar, és segur (creat pel desenvolupador principal
d'ojs com a format OAI) i no té efectes secundaris (s'activa el format
nou i qui vulgui el pot utilitzar... però no té impacte enlloc més).

I, pel poc que he vist amb una instal·lació de proves (i
incompleta) d'OJS 3.x que té ell, sembla ser que aquesta sortida
aportaria, si més no, part de les dades que obtenia per nlm.

Podries passar-li aquesta informació a qui correspongui, si us plau?
En Marc Bria està disposat a parlar amb la Natàlia sobre aquest
plugin. En tot cas, com que la desaparició del nlm ens l'hem trobat de
cop i volta, i no n'estàvem avisats i sense solucions alternatives
treballades, t'agrairia que els hi transmetessis que és un tema que per
la UAB és força urgent, ja que tenim aturada la recol·lecció OAI de
Racó fins que no sabem on hem d'abocar els esforços. Si el plugin
l'han de fer en una instal·lació de proves, també ens està bé, hi estem
d'acord.

Gràcies,

Ferran

--
Ferran Jorba
Administrador del https://ddd.uab.cat
Servei d'Informàtica
Universitat Autònoma de Barcelona

tel. +93.581.42.40

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #3

Mentre des del CSUC s'acaben de decidir o prioritzar si ens instal·len el plugin JATS recomanat pel Marc Bria, he estat treballant amb la solució alternativa, és a dir: si, amb els formats que ofereix OJS 3.x és possible tenir tota la informació que obteníem amb nlm.

Després d'haver-hi estat treballant intermitentment un parell de setmanes, crec que sí, que és possible, i que no ens cal el plugin. Els registres Marcxml d'OJS 3.x són molt millors que els de les versions anteriors, i puc obtindre'n un munt d'informació que abans no teníem, inclosos l'Orcid i l'afiliació dels autors.

Els únics camps que no he trobat en Marcxml i que he de recollir en altres formats són:

1. Títols i resums en altres llengües, que hi són en Dublin Core, ex:

2. Finançament, que hi és en el format rfc1807, ex:

  • ?
  • ?

3. Llicència, la tinc pendent; sí ara me n'adono que encara no ho tenia resolt (?!)

  • ?
  • ?

Dit això, sembla ser que cada revista és lleurament diferent de les altres, i la informació no sempre me la trobo codificada de la mateixa manera. Per afegir-hi confusió, no sé si aquests canvis són deguts a que quan el registre es va crear en el seu OJS es va crear diferent en la versió OJS 2.x o en la 3.x. O bé és la sortida, no ho sé. Tampoc no sé si a les instal·lacions de la UAB em trobaré amb sorpreses.

Per tant, de moment està en proves, i segurament hi ha errors que caldrà corregir. Els anirem anotant en aquesta tasca.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #4

Després d'haver fet una càrrega de registres aquest cap de setmana, i de mirar-me el que teníem en el format nlm i el que he acabat reconstruint amb els formats alternatius, me n'he adonat que les informacions que consten més de trobar (les de l'etiqueta 973 i la 540) estan perfectament codificades amb els camps meta_citation als que Google obliga a tothom que vulgui ser inclòs a Google Scholar (tasca #4030).

Per tant, he activat la recol·lecció d'aquests camps (de fet, els meta_citation de Google, però també els de DC que sovint també hi són a les mateixes pàgines), codificats a la pàgina html de cada article, i els emmagatzemaré a la base de dades local, al costat de tots els altres formats que recollim via oai.

I, a partir d'ara miraré que la generació d'aquests camps (X73 i 540) els registres marc21 surtin d'aquests camps html_meta, i recuperar els que no en tenen (sobretot la 540).

ES Actualitzat per Eulàlia Serre fa aproximadament 6 anys Accions #5

Tal com em demaneu utilitzo aquesta tasca per anotar els problemes que trobo:

No entren les seccions (el $k de la 773)
No entren els subtítols ($b de 245 i 246)
L'idioma (041 i 546) entra correctament, però com a mínim en algunes revistes no posa a la 245 el títol de l'idioma principal.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #6

Gràcies, Eulàlia. Però m'aniria molt bé si per cada cas m'apuntessis (al menys) un exemple, perquè he de veure què trobo en l'origen per poder-ho passar a Marc21.

ES Actualitzat per Eulàlia Serre fa aproximadament 6 anys Accions #7

Hola Ferran,

Aquí van algunes casuístiques, no tocaré aquests registres fins que m'ho diguis, d'acord?

Revista SORT (no l'entrem nosaltres)

https://ddd.uab.cat/search?ln=ca&cc=revisarutp&p=sort&f=&action_search=Cerca&c=revisarutp&c=&sf=&so=d&rm=&rg=25&sc=1&of=hb

Sembla que els entra bé, però sense els pdf, excepte un: https://ddd.uab.cat/record/218273 , per la raó que sigui aquest sí que ha entrat amb pdf. Els subtítols entrent bé. La 540 no entra però potser tampoc està indicada a RACO.

Scriptum digital

https://ddd.uab.cat/search?ln=ca&cc=revisarutp&p=scriptum&f=&action_search=Cerca&c=revisarutp&c=&sf=&so=d&rm=&rg=25&sc=1&of=hb

Entren les etiquetes 245 i 246 però el que està a RACO com a títol principal es posa a la 246 quan hauria d'anar a la 245, he de mirar si faig alguna cosa malament a RACO. En canvi la 041 i la 546 són correctes
No entren els subtítols
Només entra un resum, quan n'hi ha dos.

Ciències: revista del professorat...

Han entrat al revisar uns articles d'aquesta revista

https://ddd.uab.cat/search?ln=ca&cc=revisarutp&p=ciencies+revista+professorat&f=&action_search=Cerca&c=revisarutp&c=&sf=&so=d&rm=&rg=25&sc=1&of=hb

Que ja estaven publicats al DDD:

https://ddd.uab.cat/search?cc=ciencies&f=issue&p=ciencies_a2019n38&rg=100&sf=fpage&so=a

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #8

Moltes gràcies, Eulàlia! Sí, de moment encara no els corregeixis, perquè veig que cada cas és diferent.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #9

Sort ja té els pdfs i ja hi pots treballar. En principi això de que no tinguin pdfs no hauria de tornar a passar, a no ser que, com Lectora o algun altra, el pdf no és a Racó sinó en un altre repositori.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #10

Pel que fa a Scriptum digital, uf. Ara veig que el títol no apareix al la 245 del marcxml, que jo em pensava que era de fiar:

https://www.raco.cat/index.php/index/oai/?verb=GetRecord&metadataPrefix=marcxml&identifier=oai:raco.cat:article/361056

La sortida Dublin Core de l'OAI em posa els títols amb el camp de llengua, però no em diu quin és el títol principal:

http://www.raco.cat/index.php/index/oai/?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:raco.cat:article/oai:raco.cat:article/361056

En aquest cas, i potser als altres també, la font d'informació resulta ser els camps citation i el DC incrustat al codi font de la pàgina http://www.raco.cat/index.php/scriptumdigital/article/view/361056

Em sembla que val la pena que em replantegi com prioritzar els camps recollits dels sistemes OJS... També veig que en el mateix sistema OJS 3 (Racó, en aquest cas) la codificació dels camps no és el mateix a totes les revistes.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #11

Ahir vaig estar fent neteja de registres obsolets i sincronització dels registres respecte a Racó i Revistes UAB. Avui tinc intenció de corregir els de Scriptum Digital. Quan jo cregui que estan bé, els substituiré pels de la col·lecció revisar, i així em podràs dir si queden errors.

ES Actualitzat per Eulàlia Serre fa aproximadament 6 anys Accions #12

Han entrat registres nous al utp revisar.

Aquí poso les casuístiques. No toco res de moment:

Tiempo devorado (entra des de REDI)

Dos articles entran amb els pdf duplicats i els altres dos entren sense pdf.
Només entra un dels dos resums però veig que a REDI només han posat un resum, així que correcte.

Revista de psicología del deporte (entra des de REDI)
Els articles entren sense pdf, per la resta bé.

ReGroc : revista de gramática orientada a las competencias (entra des de REDI)
Els articles entren sense pdf, per la resta bé.
Només entra un dels dos resums però veig que a REDI només han posat un resum, així que correcte.

Athenea digital (entra des de REDI)

Han entrat dos registres, tot bé, però aquest entra amb el pdf duplicat.

Anuario iet (entra des de REDI)

Entren els pdf duplicats.
No posa els idiomes (041 i 546)
No posa l'idioma principal a la 245.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #13

Gràcies, Eulàlia. Per part meva, dono per bo Scriptum Digital, i si hi veus alguna irregularitat, si us plau avisa'm. Passo al següent de la llista.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #14

Pel que fa als articles duplicats de Ciències : revista del professorat, ja n'he trobat la causa: m'havia deixat afegir un $9 articleid als 035 amb els articleids (ISSNvXnYpZ). La 035 amb articleid continua salvant-nos de quan no tenim doi ni 035 amb l'oai. Però resulta que amb aquesta reescriptura dels registres Marc21 sense el nlm, jo em deixava el $9. I com que Invenio utilitza tots els subcamps de la 035 per mirar si el registre ja existia, com que li faltava el $9, es pensava que el registre no existia.

Jo mateix he esborrat els que estaven a la col·lecció revisarutp.

He fet una repassada a tota la base de dades i he vist que hi ha 2.843 registres amb l'articleid però sense $9, alguns de nous però altres de molt antics. He deixat un procés perquè els arregli el cap de setmana.

ES Actualitzat per Eulàlia Serre fa aproximadament 6 anys Accions #16

ELCVIA

https://ddd.uab.cat/record/219237 Aquest és l'únic article. Entra amb el pdf duplicat.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #17

Gràcies, Eulàlia.

Repassant la situació, veient que REDI aviat es passarà també a OJS3, i que (crec) que ara mateix val la pena concentrar els esforços en que a partir d'ara funcioni bé amb OJS3, m'he permès que tot el que vingui de qualsevol OJS (de fet, REDI i Racó) facin com si tots dos fossin OJS3, i per tant, agafin els valors preferentment a partir dels camps citation, i si no hi són, els altres.

Amb això, per exemple, veig que queden ben resolts els temes que abans no, com la substitució del ISSN per la sigla en el noms dels fitxers, o les 856 duplicades.

Aquesta nit, degut als probleme d'accés a Internet, la recol·lecció ha quedat a mitges, però a partir d'ara, els nous ja es faran amb els nous criteris.

Per tant, Eulàlia: si no et sap greu, corregeix manualment el que estigui malament dels OJS que hi ha a revisar, fem net, i quan n'entrin de nous, mirarem com queden. Donat que no hi ha cap homogeneïtat de codificació entre les revistes (fins i tot en el mateix Racó o REDI), es tracta de veure com resoldre cada cas intentant que no faci malbé les que funcionaven fins aleshores, i d'això no sempre me n'ensurto, ho sento.

ES Actualitzat per Eulàlia Serre fa aproximadament 6 anys Accions #18

Cap problema, Ferran. Moltes gràcies per la feina. Aniré entrant els articles. A veure si amb el nou OJS3 a REDI tot sigui més fàcil, però trobo que ara va força bé.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #19

Recordatori pel Ferran, que l'Eulàlia ho havia dit abans: falten les seccions ($k) de la 773.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #20

Eulàlia, quan en trobis algun que li hagis d'afegir el $k de la 773, apunta-me'l aquí, que he de mirar si el trobo en algun dels camps que puc capturar. En el format nlm hi era específicament (section), però ara no ho sé. Gràcies.

ES Actualitzat per Eulàlia Serre fa quasi 6 anys Accions #21

Ferran Jorba va escriure:

Eulàlia, quan en trobis algun que li hagis d'afegir el $k de la 773, apunta-me'l aquí, que he de mirar si el trobo en algun dels camps que puc capturar. En el format nlm hi era específicament (section), però ara no ho sé. Gràcies.

Aquí et poso uns quants registres:

https://ddd.uab.cat/record/224928
https://ddd.uab.cat/record/224924
https://ddd.uab.cat/record/224899
https://ddd.uab.cat/record/224894
https://ddd.uab.cat/record/224880

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #22

La veritat és que, així com en nlm hi havia el camp section, no sé trobar-ne cap d'equivalent en cap dels altres formats que ens ofereix OJS3. L'únic lloc que se m'acut és utilitzar el nom desenvolupat de l'oaiset on també es troba l'article, i que tenim a https://ddd.uab.cat/qualitat/oaiharvest_oaisets.html#L7633:

Com ho veus, Eulàlia?

ES Actualitzat per Eulàlia Serre fa quasi 6 anys Accions #23

Ferran Jorba va escriure:

La veritat és que, així com en nlm hi havia el camp section, no sé trobar-ne cap d'equivalent en cap dels altres formats que ens ofereix OJS3. L'únic lloc que se m'acut és utilitzar el nom desenvolupat de l'oaiset on també es troba l'article, i que tenim a https://ddd.uab.cat/qualitat/oaiharvest_oaisets.html#L7633:

Com ho veus, Eulàlia?

Gràcies, Ferran, però no hi entenc, si et sembla ho provem a veure com resulta.

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #24

  • Estat ha canviat de Creada a En curs

D'acord, doncs ho provarem. El funcionament serà mirar el nom de l'oaiset de cada registre (ex: https://ddd.uab.cat/idregistres.py/search?q=oai:raco.cat:article/370014). Si el nom de l'oaiset té dos punts (ex: anuarioiet:PRE, o ciencies:EXP, o Enrahonar:NEC), agafar-ne el nom desenvolupat a partir de https://ddd.uab.cat/qualitat/oaiharvest_oaisets.html i posar-lo com a $k del 773.

Eulàlia, avisa'm si us plau si funciona, o al menys si és útil.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #25

  • Estat ha canviat de En curs a Tancada

Al final fem una combinació de DC, MARCXML i HTML meta (Google citation).

Accions

També disponible a: PDF Atom