Millora #8085
tancat2023/197 Adaptar els xml de REDI per carregar-los a RACO
Descripció
REDI: Revistes digitals de la UAB (https://publicacions.uab.cat/revistes)
RACO: Revistes Catalanes de Acces Obert del CSUC (https://raco.cat)
Nosaltres ens generem un xml des d’aquesta pàgina (REDI): https://publicacions.uab.cat/revistes L’arxiu xml conté totes les dades sobre els articles publicats en un número d’una revista: autor, títol, pàgines, paraules clau, etc.. A partir d’aquest xml ho pugem a RACO: https://raco.cat/raco/index.php/es/inicio/ Des de fa uns mesos els xml que es generen des de REDI són en una versió diferent (més actualitzada) de l’xml que necessitem per carregar les dades a RACO i fa mesos que no estem carregant la informació. La UB fa temps va tenir el mateix problema i van preparar un script que els permetia arreglar l’xml de càrrega abans de pujar-lo a RACO. Hem d'analitzar l'script i veure si ens serveix o si hem de fer canvis.
Fitxers
AF Actualitzat per Anna Florensa fa més de 2 anys
Hem fet una primera reunió amb el Servei de Publicacions perquè no funciona la descàrrrega dels xml. Així que en tinguin un ens l'enviaran i podrem analitzar-lo i avaluar com ens funciona l'script de la UB i si s'han de fer modificacions.
JP Actualitzat per Javier Planella fa més de 2 anys
- S'ha afegit Fitxer export.php export.php
- S'ha afegit Fitxer raco_bellaterra_journalv12n4native-20230906-080903-issues-439.xml
- S'ha afegit Fitxer redi_bellaterra_journalv12n4native-20230906-100716-issues-5.xml
Adjunto 3 ficheros:
redi_bellaterra_journalv12n4native-20230906-100716-issues-5.xml
Exportacion XML desde REDI de la revista Bellaterra Journal
raco_bellaterra_journalv12n4native-20230906-080903-issues-439.xml
Exportacion XML desde RACO de la revista Bellaterra Journal
export.php
Script de conversion formatos XML REDI <--> RACO
JP Actualitzat per Javier Planella fa més de 2 anys
- S'ha actualitzat Descripció (diferències)
JP Actualitzat per Javier Planella fa més de 2 anys
- Fitxer s'ha suprimit (
raco_bellaterra_journalv12n4native-20230906-080903-issues-439.xml)
JP Actualitzat per Javier Planella fa més de 2 anys
- Fitxer s'ha suprimit (
redi_bellaterra_journalv12n4native-20230906-100716-issues-5.xml)
JP Actualitzat per Javier Planella fa més de 2 anys
Para descargar XML de Faventia:
https://revistes.uab.cat/faventia/management/importexport/plugin/NativeImportExportPlugin
Click en "exportar numeros"
El motiu pel que son fitxers tant grans és pq. dins dels XMLs hi ha tota l'info dels articles/ressenyes: Això vol dir que l'XML inclou (en format binari) tot el contingut dels PDF, JPG, etc. i per tant ocupa com la suma de tot el contingut del número.
JP Actualitzat per Javier Planella fa més de 2 anys
En RACO tenemos los archivos de Faventia:
https://raco.cat/index.php/Faventia/issue/archive
Faltan los años 2019, 2020, 2021
JP Actualitzat per Javier Planella fa més de 2 anys
En el Script de la UB transforman a un fichero .XML que no tiene los ficheros .pdf, solo los metadatos (borran <embed encoding="base64">...</embed>)
en pruebas realizadas con el .pdf dentro del .XML da un error al importar desde REDI a RACO:
Element '{http://pkp.sfu.ca}submission_file': This element is not expected. Expected is one of ( {http://pkp.sfu.ca}id, {http://pkp.sfu.ca}title ).\n
\n\t\t\t\t\t
Element '{http://pkp.sfu.ca}submission_file': This element is not expected. Expected is one of ( {http://pkp.sfu.ca}id, {http://pkp.sfu.ca}title ).\n
\n\t\t\t\t\t
Element '{http://pkp.sfu.ca}submission_file': This element is not expected. Expected is one of ( {http://pkp.sfu.ca}id, {http://pkp.sfu.ca}title ).\n
\n\t\t\t\t\t
Contactar con la UB para preguntar si usan ese Script para los metadatos y posteriormente suben los .pdf de forma manual
JP Actualitzat per Javier Planella fa més de 2 anys
Se contactará con la UB para pedir mas información sobre el desarrollo del Script
Si efectivamente ellos no suben los .pdf nos quedan algunas alternativas:
- Desde REDI: consultar la posibilidad de exportación de registros a una versión inferior de OJS
- Actualizar la versión OJS plataforma RACO
- Importar los Metadatos desde RACO y posteriormente añadir los PDF
- Reprogramar el Script: consultar la documentación de las distintas versiones de OJS y mapear los campos de datos de la versión de origen a la versión de destino.
Nota: la importación de registros entre diferentes versiones de software puede ser un proceso complejo y potencialmente propenso a errores
JP Actualitzat per Javier Planella fa més de 2 anys
Programación:
JP Actualitzat per Javier Planella fa més de 2 anys
- S'ha afegit Fitxer raco---faventia43redi.xml raco---faventia43redi.xml
Modificar script para que añada fichero PDF:
1) cambiar <remote src="https://revistes.ub.edu/index.php//article/view/162"/> por:
<submission_file_ref id="543384" revision="1"/>
2) debajo de </authors> añadir un codigo.xml con el .PDF emebebido:
<submission_file xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" stage="proof" id="543384" xsi:schemaLocation="http://pkp.sfu.ca native.xsd">
<revision number="1" genre="Text de l'article" filename="Faventia40-Buis.pdf" viewable="false" date_uploaded="2020-11-20" date_modified="2020-11-20" filesize="473612" filetype="application/pdf" uploader="adminRACO">
<name locale="es_ES">Faventia40-Buis.pdf</name>
<embed encoding="base64">TRTRT...TYNCiUlRU9GDQo=</embed>
</revision>
</submission_file>
adjunto raco---faventia43redi.xml para revista Favencia numero 43 con .PDF asociado a articulo de Jordi Vidal
JP Actualitzat per Javier Planella fa més de 2 anys
El formato de exportación de Redi incluye en el fichero de exportación la codificacion en binario de los .PDF, .DOC, .JPG
esto implica que cada codificación de cada fichero tiene entre 2.000.000 (2 millones) y 12.000.000 (12 millones) de caracteres, lo cual hace que desde código .PHP no sea viable el manejo de esa informacion
Por tanto no es posible desde Script la exportación/importación de ficheros entre las diferentes plataformas, solo con los Metadatos
JP Actualitzat per Javier Planella fa més de 2 anys
El script de la UB solucionaba el tema de los ficheros .PDF enlazando directamente a su repositorio digital (no los alojaban en RACO)
JP Actualitzat per Javier Planella fa més de 2 anys
Durante el proceso, hemos encontrado los siguientes problemas:
- Cambios en la estructura XML: la estructura y el formato de los datos .XML en la versión más reciente de OJS son diferentes de los que se utilizaban en la versión más antigua y no son compatibles
- Pérdida de metadatos: Hay que verificar en todas las colecciones que no se producen
- Errores de validación: la plataforma RACO genera errores de validación, lo que impide una migración exitosa. Están relacionados con diferencias en los esquemas XML
Por tanto necesitamos más asistencia técnica para solucionar estos problemas.
Si descartamos la actualización de OJS RACO:
- Mapeo y transformación XML: Entre las dos versiones de OJS. Crear un proceso de mapeo y transformación XML que traduzca los datos de la estructura de la versión más reciente a la estructura de la versión más antigua. Hace falta documentación exhaustiva de ambos formatos XML
- Desarrollo de un script personalizado: Basado en que ya tenemos o desarrollar uno nuevo, lo que facilitaría la migración de datos de forma automatica
- Pruebas exhaustivas: asegurarnos que todos los datos han sido transferidos correctamente y no se ha perdido información
Y la alternativa de contactar con los desarrolladores de OJS para que nos proporcionen como abordar la exportación entre versiones
AF Actualitzat per Anna Florensa fa més de 2 anys
Sobre tot això que comenteu, tinc un parell de preguntes:
- Sembla que la limitació de 200MB és un problema tant per a la descàrrega de XML de la UAB com per a la càrrega a RACO. Les preguntes:
Hi ha alguna manera de baixar el fitxer XML de RACO sense el pdf, doc, etc... que, segons entenc és el que fa que els fitxer pensin molt?ç
Es pot carregar a RACO el fitxer XML sense el text complet, només amb metadades, i incloure l'enllaç a REDI per a la consulta? (Això és el que feia la UB).
Segons la resposta a aquestes, caldrà crear aquest aquest script a partir del que ens va proporcionar la UB. Javier jo compto que això ho puguis fer tu. Però no hi comencem a treballar fins que no tinguem la resposta a les dues preguntes anteriors.
JP Actualitzat per Javier Planella fa més de 2 anys
1) Hi ha alguna manera de baixar el fitxer XML de RACO sense el pdf, doc, etc... que, segons entenc és el que fa que els fitxer pensin molt?
Desde el Modulo XML nativo de exportacion no hay opciones posibles, hay que descargar todo.
El Script limpia ese fichero y elimina la codificacion de los ficheros adjuntos (dejando las imagenes de portadas) y quedan los metadatos
2) Es pot carregar a RACO el fitxer XML sense el text complet, només amb metadades, i incloure l'enllaç a REDI per a la consulta? (Això és el que feia la UB).
Si, modificando el Script se pueden transformar el fichero XML generado y dejar solo los metadatos.
nota: hay que realizar pruebas con diferentes revistas para verificar que no se pierde informacion
AF Actualitzat per Anna Florensa fa més de 2 anys
D'acord Javier, prepara l'script que ens permeti arreglar l'xml que baixem de REDI per a què sigui compatible amb RACO.
Aniria bé que l'script construís també la url per enllaçar des de RACO a REDI perquè allà no hi haurà el text complet.
JP Actualitzat per Javier Planella fa més de 2 anys
Ejemplo UB de envio de enlaces a su repositorio:
JP Actualitzat per Javier Planella fa més de 2 anys
Hacer la migración entre diferentes versiones de OJS da multitud de problemas técnicos:
- La importación de .PDF no es posible
- Hay enlaces de reseñas de revistas que no enlazan correctamente
- Para desarrollar un Script que garantice que no se pierden datos es necesario conocer los esquemas XML de cada Versión
El sistema OJS debe tener una opción en la parte de administración que resuelva los problemas de exportación/importación entre diferentes versiones
AF Actualitzat per Anna Florensa fa més de 2 anys
- Data de venciment ha canviat de 03-11-2023 a 30-11-2023
JP Actualitzat per Javier Planella fa més de 2 anys
RACO migrará a la versión 3.3 d'OJS
AF Actualitzat per Anna Florensa fa més de 2 anys
Faran la migració abans de l'estiu 2024
AF Actualitzat per Anna Florensa fa aproximadament 2 anys
- Data de venciment ha canviat de 30-11-2023 a 31-01-2024
AF Actualitzat per Anna Florensa fa aproximadament 2 anys
- Data de venciment ha canviat de 31-01-2024 a 22-03-2024
AF Actualitzat per Anna Florensa fa aproximadament 2 anys
- Data de venciment ha canviat de 22-03-2024 a 28-06-2024
JP Actualitzat per Javier Planella fa més d'un any
- Data de venciment ha canviat de 28-06-2024 a 30-09-2024
AF Actualitzat per Anna Florensa fa més d'un any
La migració ja té calendari: setembre del 2024
AF Actualitzat per Anna Florensa fa més d'un any
- Data de venciment ha canviat de 30-09-2024 a 30-11-2024
A l'octubre s'ha actualitzat la versió d'OJS de RACO, s'ha passat la informació al Servei de Publicacions de la UAB i ara només falta fer les proves de càrrega des de REDI i comprovar que funciona correctament.
De: Marta Dalmau i Velilla <marta.dalmau@csuc.cat>
Enviat: dilluns, 14 d’octubre de 2024 16:47
Per a: Raco <raco-l@csuc.cat>
Tema: RE: RACO - Actualització OJS 3.3
Benvolguts/des,
Ja teniu disponible i accessible la nova versió del programari OJS 3.3 per a les revistes de RACO Bàsic i Avançat.
Podreu accedir a les revistes de RACO Bàsic i Avançat amb els vostres usuaris i contrasenyes habituals. Haureu d’accedir a la vostra revista i des d’allà iniciar sessió.
Algunes de les novetats que veureu a l’accedir a la plataforma son:
1. Canvi visual i organitzatiu de les pàgines internes i de gestió de la revista
2. Noves estadístiques d’usuaris segons el seu rol.
3. Possibilitat de configurar un període d’embargament general per a tota la revista, evitant així haver-ho d’assignar número per número. Per configurar-ho anar a Configuració > Distribució > Accés, Seleccionar la restricció d’alguns dels seus continguts i al desplegable Accés obert diferit, seleccionar el temps d’embargament desitjat.
4. Nou plugin per compartir els articles a les xarxes socials, en substitució de l’AddThis.
Finalment, abans de començar a tornar a treballar, cal tenir en compte que:
• Estem acabant de fer comprovacions a la plataforma i és possible que hi trobeu algun error pel que fa a la vista dels usuaris. Com per exemple que la cerca a través de l’índex d’autors general dona error. També hem detectat que hi ha algun cas que algun article dona error a l’obrir el PDF. Ho estem revisant i treballant per solucionar-ho. Tot això no afecta a la part de gestió administrativa de la revista i mentre acabem de fer les comprovacions restants, podeu reprendre el flux de treball habitual.
• Totes les configuracions que teníeu aplicades a la versió antiga s’han mantingut per a l’actual, però us demanem, si us plau, que reviseu que tot sigui correcte i si hi ha qualsevol cosa ens ho feu saber amb el menor temps possible per poder-ho revisar.
• Podeu revisar les noves pautes d’ús de RACO amb la nova versió per si teniu qualsevol dubte (adjuntes al correu).
• Per a les revistes de RACO Avançat que assigneu DOIs, podreu accedir a les noves pautes a través del següent enllaç. Si us plau, doneu-li un cop d’ull perquè el procediment varia a com ho hem fet fins ara. Fins ara, un cop afegíeu els DOIs als articles i publicàveu el número, ens fèieu arribar un correu per tal que els validéssim. A partir d’ara, aquest últim pas quedarà anul·lat i un cop afegits als articles, podreu validar-los i registrar-los vosaltres mateixos. Si us plau, llegiu atentament les pautes i si teniu qualsevol dubte, ho comentem. Cal destacar que amb l’automatització del procés un cop s’hagi registrat el DOI, el sufix assignat no es podrà modificar.
Dit això, quedem a la vostra disposició per a qualsevol dubte.
Atentament,
Marta Dalmau Velilla
Tècnica de recursos d'informació
Àrea d’Aprenentatge, Recerca i Ciència Oberta
Consorci de Serveis Universitaris de Catalunya (CSUC)
CA Actualitzat per Cristina Azorin fa més d'un any
El Servei de Publicacions ens va indicar quines revistes tenen ja la mateixa versió. Van demanar eliminar l'OAI, però no seria convenient pel DDD, a nosaltres ens convé que les revistes de la UAB que estan a Racó també les publiquin via OAI. En aquest cas, aprofitem que hi són per afegir-la com a url alternativa, i ens pot servir per fer detectar si hi falta algun article.
De: Pep Sansó De Castellar <Pep.Sanso@uab.cat>
Enviat: dimarts, 15 d’octubre de 2024 11:18
Tema: Re: RACO - Actualització OJS 3.3
Bon dia,
encara no tenim totes les revistes actualitzades a la nova versió, ja que vam trobar un error i ho vam parar. Des de PKP estan corregint l'error i esperem que abans de final d'any puguem fer l'actualització. Les que si tenim en versió 3.3 són:
• Athenea Digital
• DAG
• Fraseolex
• Journal Human Security
• Quaderns Psicologia
• Scriptum Digital
Quan una d'aquestes revistes publiqui, podem mirar plegats de fer l'exportació XML del número complet des del ReDi i importar a RACO. Tot i que sobre el paper hauria de funcionar, fins que no ho provem no ho sabrem.
Per altra banda, veiem que RACO té activat l'OAI, cosa que no té molt sentit si nosaltres que som la font original ja el tenim activat. Per tant, caldria desactivar-lo a RACO per no crear duplicats.
Una abraçada,
–––––––––––––––––––––––––––––
Pep Sansó
CA Actualitzat per Cristina Azorin fa més d'un any
El 17/10/24 a les 13:15, Marc Bria - CAT ha escrit:
Quins serien els arguments per no tenir-los oberts?
Resumint: Evitar la dispersió pq perjudica la presència i el tràfic cap a les revistes.
Versió una mica més llarga:
Som partidaris de tenir múltiples còpies dels continguts que es generen desde les revistes (per això sempre hem insistit en que publicar amb CC-BY) però en el cas concret de RACO ens trobem amb fonts externes que fan referència allá en lloc de fer-ho a la font original (les revistes) y això genera com a mínim 3 problemes:
1. Pot haver-hi inconsistències.
2. Reducció de la presència i del tràfic.
3. Per les editores és important que es reconegui la seva tasca.
Davant les editores sempre possem en valor la réplica que es fa al DDD (com a repo institucional i pq a la vegada facilita la propagació d'articles i metadades cap a altres repositoris més globals) però RACO ens genera més problemes que un altra cosa (potser ens podeu ajudar a veure els beneficis que ens estem perdent).
Si tanquem l'OAI de les revistes a RACO, evitem que es recol·lecti de RACO que té l'inconvenient afegit de que es mostra al món com un OJS y no com un repositori el que de tant en tant encara genera alguna confusió.
Entenem la vostra necessitat y estem oberts a trobar solucions, però ens agradaria que també tingueu en compte la dels nostres editors i potser trobar la manera de fer feliç a tothom.
Pensàvem que seria més fàcil/ràpid tenir aquesta conversa en persona que per mail... però si preferiu que sigui per correu, doncs també endavant.
Salut,
m.
Hola Marc,
entenc el que dius pel que fa a la consulta d'usuari via web. Però dubto moltíssim que l'exposió via OAI tingui altres clients a part de la UAB, o algun friki fent alguna prova sense acabar d'entendre què és ben bé això de l'OAI (a mi mateix m'ha costat molts anys de fer-me'n la idea clara).
Però això només ho podríem saber o confirmar si des del CSUC tenen estadístiques per oaiset (perquè Racó té un sol servidor OAI i cada revista te un o més oaisets). Abans d'anar més enllà, potser caldria que preguntéssiu al CSUC si tenen i us poden passar aquestes estadístiques.
Dit això, igualment, a nosaltres ens cal poder-hi accedir via oai.
Ferran
AF Actualitzat per Anna Florensa fa més d'un any
- Assignat a ha canviat de Javier Planella a Cristina Azorin
CA Actualitzat per Cristina Azorin fa més d'un any
- Data de venciment ha canviat de 30-11-2024 a 20-12-2024
CA Actualitzat per Cristina Azorin fa aproximadament 1 any
- Assignat a ha canviat de Cristina Azorin a Beatriu Piera
Bea, des de la UTP no podem assumir aquesta tasca. Estava esperant que hi hagués algú a l'Hemeroteca, però la cosa s'allarga. Parleu amb el Tomàs, a veure com ho podeu organitzar.
BP Actualitzat per Beatriu Piera fa aproximadament 1 any
- Data de venciment ha canviat de 20-12-2024 a 20-12-2025
BP Actualitzat per Beatriu Piera fa 5 mesos
- Estat ha canviat de En curs a Tancada
- 1r Obj. Estr. PA s'ha establert a C4. Col·leccions patrimonials i humanitats digitals
- 2n Obj. Estr. PA s'ha establert a G2. Transformació digital
- ODS s'ha establert a ODS - Altres
Parlem amb el Cap de la Biblioteca de Comunicació que trasllada a la gestora en funcions de l'Hemeroteca la proposta. Analitzen la viabilitat d'assumir aquesta tasca i l'Eulàlia traspassa el coneixement a la Mònica Gonzàlez. A partir de Juny de 2025 es fa el traspàs de coneixements i s'assumeix la tasca a la tardor, amb intervencions puntuals de la UTP en cas de dificultats tècniques.