Tasca #5930
tancatMapeig i entrada d'informació de Pure al DDD
Afegit per Cristina Azorin fa més de 5 anys. Actualitzat fa aproximadament 4 anys.
Descripció
Una de les prioritats de la UAB d'aquest any és el nou CRIS, que ha de substituir Fènix. Per part nostra, hem de mirar que els dos sistemes s'entenguin el millor possible.
Tasques relacionades 3 (0 obertes — 3 tancades)
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #1
- S'ha afegit copiada des de Tasca #5229: Interconnexions i intercanvis ente Pure i el DDD
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #2
Vaig apuntant el que estic veient de moment per deixar constància.
1. A Egreta diu:
Información sobre la publicación
Idioma de la contribución
Inglés
Título de la contribución en su idioma original
The vector idea and its spheres: A training proposal for curriculum greening processes from the complexity
i no és cert https://ddd.uab.cat/record/219255
2. Aquest article consta com a restrictedAcces, al menys en oai_dc: https://ddd-test.uab.cat/idregistres.py/search?q=oai:egreta.uab.cat:publications/01fc1fc2-cb3c-45db-93ef-71073a947085 qui el marca així? No ho tinc clar, a Dialnet està el text complet https://dialnet.unirioja.es/servlet/articulo?codigo=3977084
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #3
Conversió a Marc21 de proves: https://ddd-test.uab.cat/idregistres.py/search?q=oai%3Aegreta.uab.cat%3Apublications%2F01fc1fc2-cb3c-45db-93ef-71073a947085
Utilitzem la sortida Mods. Falta agafar els codis de departament i facultat i casar-lo amb la taula de departaments del wiki!
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #4
Ferran, en l'exemple que ens vas donar veiem que apareix un grup de recerca
<mods:role>
<mods:roleTerm type="text" authority="pure/organisationType">/dk/atira/pure/organisation/organisationtypes/organisation/research_group</mods:roleTerm>
</mods:role>
<mods:namePart>Grup de Recerca Equip de Desenvolupament Organitzacional</mods:namePart>
<mods:role>
Ho podríem recuperar en el registre MARC? Les etiquetes 900 que teníem amb Eina ara ja no hi son?
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #5
Cristina Azorin va escriure:
Ho podríem recuperar en el registre MARC? Les etiquetes 900 que teníem amb Eina ara ja no hi son?
Sí, justament en això pensava. Però el que ens ha tingut encallat el darrer any és que els noms dels departaments i grups de recerca surten en castellà. Vaig demanar al Carlos Serrano que obrís una incidència, i d'això en fa molts mesos. Sigui com sigui, Pure exporta (en el format Mods, que és el que aprofitem) també els codis d'aquests departaments i grups de recerca. I, preveient que Elsevier trigaria massa en corregir-ho, quan aquest estiu vaig obrir la pàgina CodisDeCentreFacultatsIDepartamentsUAB ja hi vaig posar un bon grup de codis de grups de recerca que, si la memòria no em falla, els vaig treure justament de les exportacions d'Egreta.
Encara no ens ho hem mirat prou amb detall, però segurament ens caldria afegir, a aquesta taula, la sigla del grup de recerca tal com la tenim al DDD (segurament tal com la tenim a la 980 $b, però potser el codi de la col·lecció, ara mateix no m'atreveixo a pronunciar-me).
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #6
Cristina, també ens hem de mirar l'estat de la publicació, que vaig anotar a #5229-32
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #7
Aquest matí m'he reunit amb en Marc Creus i la reunió ha anat molt bé. Havíem de solucionar dues coses: l'accés als fitxers depositats a Egreta i detalls del servidor OAI, que explico com s'han resolt.
D'una banda, hem esbrinat que la informació (la pròpia existència) dels fitxers pujats a Egreta no apareix en cap dels formats de la sortida OAI. Per tant, el Marc ens haurà de proporcionar la llista. Però, el que sí que hem vist és que, sabent-ne l'adreça, els fitxers són accessibles des de qualsevol ordinador de la UAB (des de fora, com des de casa meva, no). També hem fet proves i hem comprovat que el propi Pure neteja els caràcters problemàtics dels noms dels fitxers per un guionet baix (_), de manera que ja ens els trobarem nets. Hem confirmat també que només són accessibles els fitxers que s'han pujat com a públics. Els que s'han pujat com a restringits o embargats no són accessibles (en aquest darrer cas, estem en el període d'embargament).
En Marc mirarà de generar una llista dels fitxers disponibles, i me la farà accessible des d'alguna adreça http perquè el DDD hi pugui accedir de lectura. En principi seria un fitxer amb quatre columnes: data, md5, uuid (identificador del registre) i url del fitxer. Molt probablement en farem un per any, per poder fer neteja quan siguin més antics.
D'altra banda, hem après més detalls del comportament del servidor OAI de Pure, i en general són bones notícies.
El servidor OAI efectivament fa cas de les dates d'alta i modificació a l'hora d'informar dels registres. Ens queda pendent de saber el comportament pel que fa als registres esborrats (en Marc farà proves). Hem arribat a la conclusió que si només em consten 66 registres modificats és perquè no vèiem tots els registres d'Egreta. Resulta que hi havien uns paràmetres que feien que no es publiquessin via OAI els registres que venien importats de fonts externes (bàsicament Scopus) i els que estaven restringits. Amb axò hem passat de 128.000 a 175.000 registres que es veuen via OAI. Hem decidit treure totes aquestes restriccions perquè pot ser que l'article publicat no sigui d'accés públic, però sí un preprint o postprint, i això ja es vigila des de Biblioteques.
Dit això, queden uns 130 registres que no surten via OAI. Aquest cap de setmana faré una recol·lecta sencera per veure si els recupero tots i aproftaré per passar-li al Marc la llista, i així ell mirarà d'esbrinar quins són els que tenen a Egreta i no es publiquen via OAI.
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #8
En principi, pel que vam acordar l'altre dia no hauríem d'haver registres embargats o tancats... Encara haig de passar a net les meves notes, quan les tingui les penjaré a la tasca.
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #9
Sí, Cristina, tens raó, com tampoc no tindrem registres sense fitxers, i aquests també els hem estat rebent per OAI. Crec que la manera més fàcil de saber si el OAI funciona bé pel que fa a les altes, modificacions i baixes és recopilar-lo tot, encara que després no ho pengem tot (és igual que el recercauab, que hi és tot però només recollim el que ens interessa). I, tal com deia, podem penjar-hi un preprint o un postprint aprofitant la informació del registre, encara que el registre diu que és d'accés restringit o embargat, no?
En tot cas, ara per ara això que recullo via OAI ho tinc a una base de dades del DDD de proves, com ja saps. Si la decisió no ha de ser aquesta, puc esborrar el que no toca.
Les equivalències diàries entre els identificacions OAI d'Egreta i els recid del DDD: https://ddd.uab.cat/data/recercauab/egreta2ddd.tab
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #10
Avui hem tornat a parlar amb el Marc per acabar d'entendre com funciona l'OAI de Pure. Les conclusions a les que hem arribat són:
Accés als fitxers adjunts¶
Pure sí que informa dels fitxers adjunts (pujats) al seu sistema. En podem tenir informació de vàries maneres. Una és a partir dels registres que formen part dels oaisets que tenen un withFiles, ex:
https://ddd.uab.cat/data/recercauab/egreta.ListIdentifiers.withFiles
Aquests registres, en alguna de les sortides (p. ex., oai_dc, tot i que no en mods; però justament per això els guardem tots, perquè altres cops també hem hagut de combinar camps de diferents formats) tenen les urls dels fitxers adjunts. Ex:
<identifier>https://crisws.uab.cat/ws/files/83115874/El_convent_de_Santa_Caterina_i_Ramon_de_1_.pdf</identifier>
O en qdc:
<dc:type xml:lang="spa">Capítulo</dc:type> <dc:type xml:lang="eng">Chapter</dc:type> <dc:relation>https://crisws.uab.cat/ws/files/83115874/El_convent_de_Santa_Caterina_i_Ramon_de_1_.pdf</dc:relation>
En mods, el que apareix és:
<mods:note type="version identification" displayLabel="El_convent_de_Santa_Caterina_i_Ramon_de_1_.pdf" ID="file_83115873">publishersversion</mods:note> <mods:note type="license" displayLabel="El_convent_de_Santa_Caterina_i_Ramon_de_1_.pdf" ID="file_83115873">other</mods:note> <mods:note type="document visibility" displayLabel="El_convent_de_Santa_Caterina_i_Ramon_de_1_.pdf" ID="file_83115873">FREE</mods:note> <mods:note type="peerreview status">Non peer reviewed</mods:note> <mods:note type="publication category">Research</mods:note> <mods:note type="publication workflow state">approved</mods:note>
Registres esborrats¶
Ara ja sabem que Pure no informa dels registres esborrats, però sembla que tenim una alternativa: si demanem tots els identificadors que té ara mateix Egreta, els que abans teníem i ara no són els esborrats. La petició és aquesta, però paginant fins al final (completeListSize="178441"); amb mitja hora ja els tem:
https://crisws.uab.cat/ws/oai?verb=ListIdentifiers&metadataPrefix=oai_dc&set=publications:all
Els he posat amb el nom egreta.ListIdentifiers a https://ddd.uab.cat/data/recercauab/ (no poso l'enllaç directe perquè és un fitxer molt gran, de 27 MB). Restant els identificadors dels que jo tenia constància (egreta.oai-ids 12 MB) amb aquesta llista, queden aquests: et quadra?
https://ddd.uab.cat/data/recercauab/egreta.ListIdentifiers.deleted
Registres fusionats¶
Tinc informacions disperses i exemples que m'ha passat el Marc, però que encara no he tingut temps de treure'n l'aigua clara. Actualitzaré aquesta nota quan ho hagi entès millor.
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #11
Acabo d'obrir una pàgina en el wiki perquè sigui fàcil consultar, editar o corregir diferents taules d'equivalències de les conversions entre Egreta i el DDD: EquivalenciesEgretaDDD. L'estructura no està encara del tot definida, anirà evolucionant segons les taules que ens calguin, però ara per ara crec que serà millor que estiguin totes juntes en una sola pàgina.
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #12
Avui hem tingut una reunió en Marc Creus i jo per entendre el comportament del servidor OAI de Pure pel que fa als registres esborrats i fusionats. El tractament dels registres esborrats en OAI està especificat a http://www.openarchives.org/OAI/openarchivesprotocol.html#deletion. I, efectivament, el registre informatiu del servidor ja diu que no en fa cas:
https://crisws.uab.cat/ws/oai?verb=Identify
<deletedRecord>no</deletedRecord>
Aleshores, he mirat de saber si ho puc esbrinar d'una manera o altra, i resulta que sí: es tracta de demanar-li tots els identificadors disponibles, paginant fins al final:
https://crisws.uab.cat/ws/oai?verb=ListIdentifiers&metadataPrefix=oai_dc&set=publications:all
Per a cadascun dels identificadors que jo tinc guardats, miro per programa si apareixen en aquesta llista. Si no hi és, cal fer una segona comprovació, amb una petició GetRecord al servidor OAI de Pure per saber què respon. El resultat d'aquestes peticions està a:
https://ddd.uab.cat/data/recercauab/egreta.ListIdentifiers.deleted
Alguns d'ells ja no hi són, i efectivament donen el missatge idDoesNotExist:
En canvi, en els registres fusionats, el que fan és retornar el registre, però amb un segon identificador que és el registre bo, p. ex:
Si us hi fixeu, l'identificador acaba amb 270, però hi ha també un segon identificador que acaba en 106, que és, pel que m'ha confirmat en Marc, el registre bo:
<identifier> https://portalrecerca.uab.cat/en/publications/6cafbb8d-7539-4e53-9cfc-8bb985e9d106 </identifier>
En Mods, que és el format que utilitzem per convertir els seus registres al DDD, també:
<mods:identifier type="local">PURE UUID: 6cafbb8d-7539-4e53-9cfc-8bb985e9d106</mods:identifier> [...] <mods:identifier type="uri"> https://portalrecerca.uab.cat/en/publications/6cafbb8d-7539-4e53-9cfc-8bb985e9d106 </mods:identifier>
Amb aquesta informació, tant en Marc com jo ja podem treballar:
- Per part meva, he d'esborrar del DDD les 035 amb referències als registres Egreta esborrats, i substituir els registres fusionats pels bons
- Per part del Marc, ja pot treballar amb el llistat d'equivalències per incorporar les del DDD a Egreta
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #13
Ja puc identificar els registres d'Egreta fusionats. He fet el que deia a la nota anterior, i ara el resultat és aquest:
https://ddd.uab.cat/data/recercauab/egreta.ListIdentifiers.deleted
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #14
Ja tinc identificades les referències d'Egreta esborrades o substituides al DDD. Només en són 39, i tal com li he demanat a la Cristina, crec que és millor fer les correccions a mà:
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #15
- S'ha afegit relacionat amb Tasca #6203: Interconnexions i intercanvis entre Egreta i el DDD - Objectiu SdB 2021
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #16
Els registres d'Egreta poden tenir 3 estats d'aprovació, que s'exporten (al menys) en el format Mods que utilitzem per convertir-los a Marc21:
- approved
- entryInProgress
- forApproval
D'acord amb la Cristina, només convertirem a Marc21 i, per tant, deixarem a punt per al DDD els registres que estiguin approved.
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #17
M'estic trobant una etiqueta Mods de la que no sé si cal que converteixi o no. Cristina, què et sembla?
<mods:classification displayLabel="Immunology" authority="pure/ASJCSubjectAreas">
/dk/atira/pure/subjectarea/asjc/2400/2403</mods:classification>
<mods:classification displayLabel="Virology" authority="pure/ASJCSubjectAreas">
/dk/atira/pure/subjectarea/asjc/2400/2406</mods:classification>
<mods:classification displayLabel="Infectious Diseases" authority="pure/ASJCSubjectAreas">
/dk/atira/pure/subjectarea/asjc/2700/2725</mods:classification>
<mods:classification displayLabel="Renewable Energy, Sustainability and the Environment" authority="pure/ASJCSubjectAreas">
/dk/atira/pure/subjectarea/asjc/2100/2105</mods:classification>
<mods:classification displayLabel="Environmental Science(all)" authority="pure/ASJCSubjectAreas">
/dk/atira/pure/subjectarea/asjc/2300</mods:classification>
<mods:classification displayLabel="Strategy and Management" authority="pure/ASJCSubjectAreas">
/dk/atira/pure/subjectarea/asjc/1400/1408</mods:classification>
<mods:classification displayLabel="Industrial and Manufacturing Engineering" authority="pure/ASJCSubjectAreas">
/dk/atira/pure/subjectarea/asjc/2200/2209</mods:classification>
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #18
Sí, crec que seria genial. ASJC és una classificació, entenc que un vocabulari controlat https://pg.edu.pl/documents/611754/75313317/asjc
Penso que s'hauria de mapejar com a 650 _7 $2 asjc $a XXXXXX
Amb aquest $2 sempre el podrem destriar de la resta de 650 en català que tenim.
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #19
Cristina Azorin va escriure:
Penso que s'hauria de mapejar com a 650 _7 $2 asjc $a XXXXXX
Fet.
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #20
En el curs d'Egreta diuen que hi ha una 'Categoría de la publicación' que contempla tres opcions: Investigación, Divulgación o Docencia i això ena aniria molt bé per a fer les 599. Surt a l'exportació OAI??
Males notícies Pure encara no té relació entre projectes i publicacions. ;-((( Els he dit al curs que és molt important que quan ho facin parlin amb nosaltres per codificar-ho tal i com diu la Fecyt.
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #21
Aquest registre d'Egreta
035 __ $a oai:egreta.uab.cat:publications/bb12eb0f-4581-4eb8-ac29-e59f97b5074f
te dos adreces del DDD perquè l'article està duplicat: https://ddd.uab.cat/record/184865 i https://ddd.uab.cat/record/235299
això és pot veure??? Podríem tenir un llistat de possibles duplicats a Egreta??
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #22
- Data de venciment ha canviat de 09-12-2020 a 09-12-2021
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #23
Bona idea, m'ho apunto. Ara mateix no puc oferir-te'ls tots, però el programa efectivament en troba dos:
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #24
De la reunió amb en Marc Creus d'avui, hem acordat que:
- Només passem les adreces del DDD a Egreta quan formen part de col·leccions públiques, perquè si no podem publicar registres que no estan a punt o estan a la de nodrets.
- Per solucionar el problema dels registres esborrats o que passen de col·leccions públiques a restringides, el que farem serà que sempre que tinguem constància d'un identificador d'Egreta els l'hi passarem, però si està en un registre restringit o esborrat, a la columna del número de registre hi sortirà un guió (-).
- Per tant, i com a resultat dels dos punts anteriors, simplificarem els fitxers d'exportació del DDD a Egreta. En concret:
- https://ddd.uab.cat/data/recercauab/egreta2ddd.tab eliminarem la tercera columna, perquè el Marc diu que no la fa servir
- https://ddd.uab.cat/data/recercauab/recercauab2egreta.tab no cal generar-lo més; el Marc no l'utilitza.
- De moment en el format antic el mantindrem uns dies amb l'extensió .tmp, per indicar que són temporals.
Pel que fa als camps "publication workflow state" i "publicationStatus" d'Egreta, el Marc m'ha explicat què volen dir
- 'type="publication workflow state"' diu que el podem ignorar perfectament en el sentit que no implica cap validació ni control de qualitat (llevat de duplicats i temes molt administratius). Però sí que afecta a la publicació a https://portalrecera.uab.cat i al portal de recerca de Catalunya. Concretament, només hi surten si consten com a "approved". És per aquest motiu que de vegades les urls que comencen per https://portalrecera.uab.cat funcionen i de vegades no. Al DDD hem de decidir si les publiquem.
- publicationStatus pot tenir diferents estats (v. EquivalenciesEgretaDDD ) i es refereix a si l'article està publicat per l'editor original. Com que al DDD sovint tenim preprints o versions diferents de la comercial, en principi això no ens hauria d'afectar.
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #25
Gràcies per les notes Ferran. Volia comentar un dels punts:
Per solucionar el problema dels registres esborrats o que passen de col·leccions públiques a restringides, el que farem serà que sempre que tinguem constància d'un identificador d'Egreta els hi passarem, però si està en un registre restringit o esborrat, a la columna del número de registre hi sortirà un guió (-).
Jo crec que no hem de considerar del mateix nivell els registres esborrats i els restringits. Seria important i convenient que a Egreta es pogués marcar d'alguna manera que el fitxer està al DDD però que no es pot fer públic. Per evitar que ens enviïn el mateix fitxer vàries vegades si està a no drets o en procés de revisió.
Suposo que serà difícil que aquesta solució vingui d'Egreta. Per part nostra podríem almenys a la part interna de Pure (no al Portal de la Recerca) remetre a una pàgina explicativa de la col·lecció no drets i tancar així l'opció de pujar un fitxer des d'Egreta. Proposo canviar el '_' del llistat per una url fixa, per exemple.
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #26
Pel que fa als camps "publication workflow state" i "publicationStatus" d'Egreta, el Marc m'ha explicat què volen dir
- 'type="publication workflow state"' diu que el podem ignorar perfectament en el sentit que no implica cap validació ni control de qualitat (llevat de duplicats i temes molt administratius). Però sí que afecta a la publicació a https://portalrecera.uab.cat i al portal de recerca de Catalunya. Concretament, només hi surten si consten com a "approved". És per aquest motiu que de vegades les urls que comencen per https://portalrecera.uab.cat funcionen i de vegades no. Al DDD hem de decidir si les publiquem.
No, no les publicarem.
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #27
Correcte, Cristina. De fet, tots aquests acords venien justament del fet que quan nosaltres esborrem un registre al DDD, o eliminem una referència Egreta al DDD, fins ara ells no ho podien saber. O bé que un registre públic passi a restringit. Des del seu punt de vista, ells han de tenir coneixement que abans aquella referència seva apuntava a tal registre nostre i ara ja no.
Egreta ara al menys saben dels registres seus que tenim identificats. Certament, dubto que ara mateix puguin fer-ne res, d'aquest fet, però el Marc i jo hem cregut que aquesta solució era clara, senzilla, i completa, i donava el joc que calgués per fer-ne alguna cosa més endavant.
Ara mateix penso que una solució més elaborada podria passar per posar en negatiu (ex -12345) els números de registre nostres restringits. Però si tampoc no en poden fer res, no sé si serviria de gaire. En fi, potser més endavant.
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #28
Cristina Azorin va escriure:
No, no les publicarem.
Entesos, queda clar.
FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #29
- Estat ha canviat de En curs a Tancada
El tema dels registres esborrats els hem solucionat així:
- cada dia dia fem una petció de ListIdentifiers (llista de recids) de tot Egreta, i els comparem amb tots els recids d'Egreta que tenim emmagatzemants localment.
- per a cada registre que nosaltres tenim i que no apareix en la seva llista, fem una petició de GetRecord. Poden passar dues coses:
- Que doni un error IdDoesNotExist: vol dir que efectivament està esborrat
- Que doni un registre però amb un altre identificador: vol dir que el registre ha estat unificat (substituit) per un altre.
El resultat d'aquesta llista l'actualtizem diàriament a:
https://ddd.uab.cat/qualitat/egreta2ddd-deleted.html
Cal editar els nostres registres manualment per fer una cosa o l'altra a la 035. Egreta són informats dels nostres canvis via aquest fitxer:
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #30
- Paraula clau s'ha suprimit (
NCR)
CA Actualitzat per Cristina Azorin fa més de 2 anys Accions #31
- S'ha afegit relacionat amb Tasca #7352: Traspàs de registres del DDD a EGRETA