Tasca #866
tancatExportació des de ReDI al DDD - PRJ153
Afegit per Cristina Azorin fa quasi 16 anys. Actualitzat fa més de 11 anys.
Descripció
Caldria que el DDD s'entengués amb el programa OJS per fer càrregues des de RACO i des dels altres OJS de la UAB.
Aquesta tasca descriu només l'exportació ReDI -> DDD, via OAI.
Identify:
- RACO: http://www.raco.cat/index.php/index/oai/?verb=Identify
- OJS UAB: http://ojs.uab.cat/index.php/index/oai/?verb=Identify
- OJS 2.3.4: http://psicologiasocial.uab.es/athenea-test/index.php/atheneaDigital/oai?verb=Identify
ListMetadataFormats:
- RACO: http://www.raco.cat/index.php/index/oai/?verb=ListMetadataFormats
- OJS UAB: http://ojs.uab.cat/index.php/index/oai/?verb=ListMetadataFormats
- OJS 2.3.4: http://psicologiasocial.uab.es/athenea-test/index.php/atheneaDigital/oai?verb=ListMetadataFormats
ListSets
- RACO: http://www.raco.cat/index.php/index/oai/?verb=ListSets
- OJS UAB: http://ojs.uab.cat/index.php/index/oai/?verb=ListSets
- OJS 2.3.4: http://psicologiasocial.uab.es/athenea-test/index.php/atheneaDigital/oai?verb=ListSets
ListIdentifiers
- RACO: http://www.raco.cat/index.php/index/oai/?verb=ListIdentifiers&metadataPrefix=oai_dc&set=faventia:ART
- OJS UAB: http://ojs.uab.cat/index.php/index/oai/?verb=ListIdentifiers&metadataPrefix=oai_dc&set=jtl3:ART
- OJS 2.3.4: http://psicologiasocial.uab.es/athenea-test/index.php/atheneaDigital/oai?verb=ListIdentifiers&metadataPrefix=oai_dc&set=atheneaDigital:ART
ListRecords
- Dublin Core
- RACO: http://www.raco.cat/index.php/index/oai/?verb=ListRecords&metadataPrefix=oai_dc&set=faventia:ART
- OJS UAB: http://ojs.uab.cat/index.php/index/oai/?verb=ListRecords&metadataPrefix=oai_dc&set=jtl3:ART
- OJS 2.3.4: http://psicologiasocial.uab.es/athenea-test/index.php/atheneaDigital/oai?verb=ListRecords&metadataPrefix=oai_dc&set=atheneaDigital:ART
- Marcxml
- RACO: http://www.raco.cat/index.php/index/oai/?verb=ListRecords&metadataPrefix=marcxml&set=faventia:ART
- OJS UAB: http://ojs.uab.cat/index.php/index/oai/?verb=ListRecords&metadataPrefix=marcxml&set=jtl3:ART
- OJS 2.3.4: http://psicologiasocial.uab.es/athenea-test/index.php/atheneaDigital/oai?verb=ListRecords&metadataPrefix=marcxml&set=atheneaDigital:ART
- NML: NCBI Journal Publishing XML Schema
- RFC 1807
- OAI MARC
GetRecord
- RACO: http://www.raco.cat/index.php/index/oai/?verb=GetRecord&metadataPrefix=marcxml&identifier=oai:raco.cat:article/21590
- OJS UAB: http://ojs.uab.cat/index.php/index/oai/?verb=GetRecord&metadataPrefix=marcxml&identifier=oai:ojs.uab.cat:article/36
- OJS 2.3.4: http://psicologiasocial.uab.es/athenea-test/index.php/atheneaDigital/oai?verb=GetRecord&metadataPrefix=marcxml&identifier=oai:ojs.pkp.sfu.ca:article/25
I l'exportació nativa? http://pkp.sfu.ca/support/forum/viewtopic.php?f=2&t=2943
Fitxers
| Mapeig_RACO_a_CCUC_a2014m7.docx (27.1 KB) Mapeig_RACO_a_CCUC_a2014m7.docx | Cristina Azorin, 23-09-2014 14:54 |
Tasques relacionades 2 (0 obertes — 2 tancades)
FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #1
Cristina,
oi que no és correcte utilitzar una 786 (http://www.loc.gov/marc/bibliographic/bd786.html) per a la publicació mare, com fa OJS? Nosaltres utilitzem la 773 (http://www.loc.gov/marc/bibliographic/bd773.html). He vist que ho fan tant RACO com OJS UAB, i també, pel que sembla tots els OJS.
T'ho pregunto perquè si ho fan tots, no cal que li demani al Joan Montal o al CESCA de canviar-ho, sinó que ho fem nosaltres i ja està.
Una altra cosa és que avaluem si aquestes etiquets Marc són tan cutres que n'haguem de canviar la meitat, i millor agafar la sortida Dublin Core o alguna exportació nativa, que em sembla que seria el millor, sobretot perquè podria especificar millor els camps de data, ISSN (que tampoc no surt en Marcxml ni Dublin Core), etc. etc.
FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #2
He fet una primera càrrega de tots els articles d'Anàlis de Racó a una col·lecció específica del DDD de proves: http://ddd-test.uab.cat:2000/collection/raco
Amb aquesta primera càrrega, i després de parlar-ne amb la Montse Reche, ja podem veure unes quantes coses.
Mancances de RACO (o del OJS tal com el tenen a RACO):
- No hi ha parules clau, encara que via OAI les exporta, si les té.
- No hi surt el ISSN.
- No hi surt la paginació.
D'altra banda, RACO sí que té aquests camps que al DDD no tenim:
1. Secció. De fet, RACO ho implementa creant un OAI set per cada secció de cada revista.
Comparació d'alguns articles importats de RACO via OAI i com els tenim al DDD:
A part de la diferència de contingut, també queda pulir la conversió, especialment els campx X73, que faré tot seguit.
Anirem avaluant aquesta conversió a mesura que progressem.
FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #3
Al OJS de la UAB sí hi ha matèries i pàgines. Compareu:
FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #4
(Correcció del registre de RACO): Al OJS de la UAB sí hi ha matèries i pàgines. Compareu:
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #5
La base address del OAI d'Athenea Digital és aquesta:
http://psicologiasocial.uab.es/athenea/index.php/atheneaDigital/oai/
L'apunto aquí per comparar poder comprar les dades exportades via OAI amb els altres OJS.
- http://psicologiasocial.uab.es/athenea/index.php/atheneaDigital/oai/?verb=Identify
- http://psicologiasocial.uab.es/athenea/index.php/atheneaDigital/oai/?verb=ListMetadataFormats
- http://psicologiasocial.uab.es/athenea/index.php/atheneaDigital/oai/?verb=ListSets
- http://psicologiasocial.uab.es/athenea/index.php/atheneaDigital/oai/?verb=ListIdentifiers&metadataPrefix=oai_dc
- http://psicologiasocial.uab.es/athenea/index.php/atheneaDigital/oai/?verb=ListRecords&metadataPrefix=oai_dc&set=atheneaDigital:ART
- http://psicologiasocial.uab.es/athenea/index.php/atheneaDigital/oai/?verb=ListRecords&metadataPrefix=marcxml&set=atheneaDigital:ART
Actualitzat per fa quasi 15 anys Accions #6
- Estat ha canviat de Creada a Tancada
Actualitzat per fa quasi 15 anys Accions #7
Edito per a completar la llista amb proves contra la última versió d'OJS (2.3.4) amb dades d'una revista real.
Veig que en aquesta versió han incorporat NML (NCBI Journal Publishing XML Schema) i que si que es publica l'ISSN. DDD permet recol·lectar amb aquest protocol?
Es que en dades, sembla el més complert.
Com dic, inclou ISSN, però tambè segmenta els noms d'autors, afegeix dades en multilang (inclosos keywords), indica la secció... A mi em sembla una meravella.
Si DDD ho permet, seria una solució, no?
Actualitzat per fa quasi 15 anys Accions #8
A l'OJS de proves he activat un prefix DOI per a veure que exporta i com ho fa.
Al fer-ho, Dublin Core mostra un nou "Resource Identifier" amb el DOI que permetria identificar la revista pel nom curt de la mateixa (en el cas de la revista de proves es "athenead").
Pot ser un altre solució pel problema d'identificació de la revista en l'article.
Per altre banda, amb OAI_DC veig que es publica el nom d'autor en format "cognoms nom".
Ja és el format que us cal no?
Actualitzat per fa quasi 15 anys Accions #9
Nomes per en-recordar-me, el DOI es configura el pas 4.3:
http://pkp.sfu.ca/ojs/docs/userguide/2.3.3/journalManagementSetup4.html [Veure Figura 4.38.]
Les opcions amb OJS 2.3.4 son:
- Custom identifiers will be used to identify issues.
- Custom identifiers will be used to identify published items.
- Custom identifiers will be used to identify galleys (e.g. HTML or PDF files) for published items.
- Custom identifiers will be used to identify supplemental article files.
Aquí parlen del tema:
http://pkp.sfu.ca/support/forum/viewtopic.php?f=8&t=6630
No he pogut fer la prova (fer el circuit de publicació d'un article pren 10-15 minuts), però sospito que amb el DOI actiu i les opcions 3 i 4 marcades, els noms dels documents exportats resultarien més "significatius" del que ho són ara.
Quan faci la prova us comento.
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #10
- Estat ha canviat de Tancada a Creada
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #11
Marc,
perfecte amb les teves propostes:
- si OJS permet exportar en NML, ens ho mirarem, principi preferiblement si ho fa via protocol OAI, o bé si a posteriori podem construir la URL del registre en aquest format, per
- Si en Dublin Core els autors poden anar en ordre invers (Cognom, Nom), també fantàstic.
- Tots els identificadors son bons. Com els estàndards (n'hi ha tants, per escollir!)
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #12
- Tema ha canviat de Importació de dades de RACO i OJS a Importació de dades de RACO, OJS i REDI
Actualitzat per fa quasi 15 anys Accions #13
- Tema ha canviat de Importació de dades de RACO, OJS i REDI a Importació de dades de RACO i OJS
Actualitzat per fa quasi 15 anys Accions #14
- Assignat a ha canviat de Ferran Jorba a Eulàlia Serre
Actualitzat per fa quasi 15 anys Accions #15
OJS 2.3.4 incorpora per defecte el protocol OAI amb els formats:
- Dublin Core
- Marcxml
- NML: NCBI Journal Publishing XML Schema
- RFC 1807
- OAI MARC
Veure: http://psicologiasocial.uab.es/athenea-test/index.php/atheneaDigital/oai?verb=ListMetadataFormats
En versions previes d'OJS no s'implementava el format NML:
Veure: http://ojs.uab.cat/index.php/index/oai/?verb=ListMetadataFormats
Ferran, feu proves i ens dieu que tal?
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #16
- Assignat a ha canviat de Eulàlia Serre a Ferran Jorba
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #17
Marc,
m'he estat mirant els exemples que has posat de registres amb aquest format NML i m'agrada molt, diria que hi ha tot el que ens fa falta, més que en el Marcxml o en Dublin Core.
Entenent, tal com dius, que només l'has d'activar, si us plau fes-ho. Ara mateix no puc fer les proves, perquè tot el que sigui transformacions amb XML és lent, pesat i laboriós, i ho haurem de revisar amb la Cristina Azorón, però sí que ho dono per bo.
Actualitzat per fa quasi 15 anys Accions #18
- Assignat a ha canviat de Ferran Jorba a Eulàlia Serre
Actualitzat per fa quasi 15 anys Accions #19
Perfecte. Gran noticia. :-)
Pots contar que totes les revistes tindran OAI amb NML (a banda de MarcXML i Dublin Core).
Tan aviat com tinguem muntat els servidors d'OJS en producció (amb algun contingut) et faig arribar la URL definitiva.
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #20
- Assignat a ha canviat de Eulàlia Serre a Ferran Jorba
FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #21
Missatge del Marc Bria:
Com t'ha comentat en Pep, amb algunes revistes ja estem funcionant en "producció", per tant és un bon moment per a començar a veure si podem fer que l'OJS i el DDD s'entenguin.
La revista amb la que fer proves seria "Papers" amb:
- URL interna: http://revistes.uab.cat/papers
- URL pública: http://papers.uab.cat
Utilitza la que et faci més gràcia. :-)
Per altre banda, et confirmo que l'OJS (si no es toca res) fa un Set per cada
secció: http://revistes.uab.cat/papers/oai?verb=ListSets
tot i que pel que veig, hi ha un primer Set que inclou TOTS els articles: http://revistes.uab.cat/papers/oai?verb=ListRecords&metadataPrefix=oai_dc&set=papers
Actualitzat per fa més de 14 anys Accions #22
A la configuració de l'OJS hi ha una secció dedicada a OAI, però com veus, no hi ha massa amb el que jugar... tot i que el "repository_id" potser resulta interessant i és bo saber que es pot tocar el límit de 100 registres:
;;;;;;;;;;;;;;;; ; OAI Settings ; ;;;;;;;;;;;;;;;; [oai] ; Enable OAI front-end to the site oai = On ; OAI Repository identifier repository_id = "papers.uab.cat" ; Maximum number of records per request to serve via OAI oai_max_records = 100
FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #23
Marc,
això del oai_max_records forma part del estàndard del protocol i serveix per a no sobrecarregar el servidor demanant-li massa registres. Aleshores s'han d'entendre el client i el servidor per anar-li demanant de n en n. Nosaltres per al DDD hi hem deixat el valor de 1000 que per defecte que proposa el CERN:
## CFG_OAI_LOAD -- OAI number of records in a response: CFG_OAI_LOAD = 1000
Pel que sembla, a les properes versions recomanen 500:
http://invenio-software.org/repo/invenio/tree/config/invenio.conf#n568
FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #24
Exemples de registres en diferents formats servits per OAI dels nous OJS de la UAB:
- http://revistes.uab.cat/papers/oai?verb=ListMetadataFormats
- http://revistes.uab.cat/papers/oai?verb=ListRecords&metadataPrefix=nlm
- http://revistes.uab.cat/papers/oai?verb=ListRecords&metadataPrefix=oai_marc
- http://revistes.uab.cat/papers/oai?verb=ListRecords&metadataPrefix=oai_dc
- http://revistes.uab.cat/papers/oai?verb=ListRecords&metadataPrefix=marcxml
De moment no he estat capaç de trobar altres revistes que ara mateix serveixin registres per OAI.
La meva opinió és que:
- D'entrada el NLM sembla que ens pot servir millor que els altres; falta un estudi més detallat.
- Hi ha molta, ''massa'' porqueria de Word en els registres, del tipus:
<p class="MsoNormal" style="text-align: justify;">Sin perjuicio y conforme... ta <strong>Papers. Revista de Sociologia</strong>, en el plazo máximo de dos años.</p> <p class="MsoNormal" style="text-align: justify;">La Revista...
Això fa molt de mal. Ens en farà al DDD i li farà a qualsevol altre servei. És millor corregir-ho en origen, perquè aleshores la neteja només s'ha de fer un cop; si no ho feu vosaltres, obligeu a ''tots'' els que vulguin aprofitar aquestes dades a fer-les ells.
Hi podríeu posar remei, si us plau?
FJ Actualitzat per Ferran Jorba fa aproximadament 14 anys Accions #25
Hem d'aprofitar per implementar la secció de les revistes com a 773 $k (vegeu SeccionsDeRevistesEnMARC21, que fa molt de temps que ho tenim pendent).
FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #26
- Temàtica prevista ha canviat de Noves càrregues de col·leccions o documents a OAI: recol·leccions
FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #27
- Tasca pare s'ha establert a #2439
FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #28
- Data de venciment s'ha establert a 31-10-2013
PR Actualitzat per Pere Roca fa més de 12 anys Accions #29
- Tasca pare s'ha suprimit (
#2439)
NC Actualitzat per Núria Casaldaliga fa més de 12 anys Accions #30
- Paraula clau s'ha establert a JR
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys Accions #31
- Data de venciment ha canviat de 31-10-2013 a 27-06-2014
NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys Accions #32
- Tema ha canviat de Importació de dades de RACO i OJS a Importació de dades de RACO i ReDi
NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys Accions #33
- Tema ha canviat de Importació de dades de RACO i ReDi a Importació de dades de RACO i ReDi - PRJ153
- Paraula clau ha canviat de JR a JR Cartera
NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys Accions #34
- Paraula clau ha canviat de JR Cartera a JR
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys Accions #35
- Paraula clau ha canviat de JR a JR cartera
MB Actualitzat per Marc Bria fa quasi 12 anys Accions #36
Aquí teniu una revista de proves, actualitzada a 2.4.4 (l'estable des de fa 15 dies) amb la que podeu fer totes les proves que calgui.
Aquesta és la URL d'inici de OAI:
http://revistes.uab.cat/testddd/oai
I aquí els links anteriors actualitzats:
- http://revistes.uab.cat/testddd/oai?verb=ListMetadataFormats
- http://revistes.uab.cat/testddd/oai?verb=ListRecords&metadataPrefix=nlm
- http://revistes.uab.cat/testddd/oai?verb=ListRecords&metadataPrefix=oai_marc
- http://revistes.uab.cat/testddd/oai?verb=ListRecords&metadataPrefix=oai_dc
- http://revistes.uab.cat/testddd/oai?verb=ListRecords&metadataPrefix=marcxml
*Sobre la brossa de M$Word en els camps de text
*Parlo amb en Pep per a veure que hi podem fer.
El tema és que per manca de temps, deleguem tota la gestió en les revistes, però tot i les formacions no hi ha manera de que ho facin com toca.
Em miro el plugin del tinyMCE a la nova versió d'OJS a veure si neteja el codi o porta quelcom per a evitar el problema.
Sobre el CFG_OAI_LOAD
Merci per reportar-ho amb solució inclosa.
Llavors modifico per a que totes les revistes per a 500 o 1000?
oai_max_records = 500
Com comentaves quasi ningú utiltiza l'OAI així que per mi no hi ha inconvenient en incrementar el paràmetre fins a 1000 si ho necessites.
Salut,
m.
MB Actualitzat per Marc Bria fa quasi 12 anys Accions #37
Sobre les múltiples URLs de les revistes i com afecta a les metadades.
Aquí tens un exemple:- http://revistes.uab.cat/papers/oai?verb=ListRecords&metadataPrefix=nlm
- http://papers.uab.cat/oai?verb=ListRecords&metadataPrefix=nlm
He fet wget de totes dues i el diff només reporta d'una petita diferència:
OJS informa de diferents "Request URL" (com ha de ser) però les metadades que entrega son les mateixes.
Per tant, pots utilitzar la sintaxis http://revistes.uab.cat/<tag-revista> per a totes les revistes del servei... independentment de la "URL principal" que tingui la revista.
Si el DDD no pot recol·lectar, avisa doncs potser hi ha algun problema al robots.txt.
MB Actualitzat per Marc Bria fa quasi 12 anys Accions #38
Els links de l'entrada 36 ja estan operatius, tot i que el que sospito que t'interessa més és:
http://revistes.uab.cat/testddd/oai?verb=ListRecords&metadataPrefix=nlm
Deixo aquí anotat el post amb la "solució" al problema, per a futures referències:
http://pkp.sfu.ca/support/forum/viewtopic.php?f=8&t=8751
La revista és un OJS 2.3.6 migrat a 2.4.4 (com ho seran totes les revistes del ReDi entre aquesta setmana i la que ve).
Per a facilitar les proves, la revista "clonada" és una revista amb poc contingut ("indialogs").
L'OJS 2.4.4 inclou els següents formats:
- Dublin Core version 1.1
- MODS version 3.4
- NLM version 3.0
- OpenURL version 1.0
Ferran, qualsevol cosa que necessitis, fes-m'ho saber.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #39
Gràcies, Marc. Hi estic treballant. Quan desencalli un tema de sintaxi espero fins i tot avançar ;-)
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #40
- Estat ha canviat de Creada a En curs
Estic arribant a la frustrant conclussió que aquests canvis d'espais de noms del document nlm crea unes complexitats excessivament barroques, al menys si el tractament que hi he de fer és a través de fulls xsl. Amb l'ajuda del Joan Montal tinc algun exemple per desencallar-me, però crec que l'esforç no surt a compte, tenint en compte que igualment hi hauré de fer algun post-tractament igualment.
Per tant, ara m'estava mirant de recollir de dades en DC o algun altre i, igual que amb les tesis, enriquir el resultat a posteriori.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #41
Sembla que aquesta estratègia pot anar bé; de moment he recollit les dades mínimes en DC via OAI, que a més té detalls incòmodes, com de crear etiquetes buides, per després, a partir de l'identificador OAI del registre, recollir el registre més ric en format nlm, i reescriure'l amb els camps que li falten.
Exemple d'un registre en format DC:
En origen:
- http://revistes.uab.cat/testddd/oai?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:testddd.revistes.uab.cat:article/5 (en DC)
- http://revistes.uab.cat/testddd/oai?verb=GetRecord&metadataPrefix=nlm&identifier=oai:testddd.revistes.uab.cat:article/5 (en NLM)
- http://revistes.uab.cat/testddd/oai?verb=GetRecord&metadataPrefix=marcxml&identifier=oai:testddd.revistes.uab.cat:article/5 (en MarcXML)
- http://revistes.uab.cat/testddd/oai?verb=GetRecord&metadataPrefix=rfc1807&identifier=oai:testddd.revistes.uab.cat:article/5 (en RFC 1807)
Són registres de proves, encara.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #42
Això és com muntar un puzzle, amb peces de diferents llocs, perquè no tots els formats donen tota la informació. Per exemple, així com el format NLM és el més complet, no dóna informació de pàgines, de llengua ni de llicència. Pel que he vist, combinant NLM i rfc1807 ho tenim tot. Clar que després cal afegir informació que no està enlloc, com els famosos camps «info-repo» de Driver, el text de la llicències (que, d'altra banda, OJS dóna la versió anglesa i nosaltres ho tenim amb la catalana, etc), etc.
El resultat, però, sembla molt satisfactori. Per exemple, en cadascun d'aquests casos, el primer registre és el creat per la Montse Reche al DDD (i que faig servir de model) i el segon és el que creo jo a partir del que dóna el servidor OAI del OJS:
Demà continuaré repassant què hi falta...
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #43
Notes reunió 05/06/2014 (Escrit per la Cristina Azorín, encara que consti el nom del Ferran)
- Reunió amb RACO
- Servidor OJS a client OJS? (de UAB a RACO o de RACO a UAB)
- Servidor OJS a client Invenio
- Servidor Invenio a client OJS - RACO
Servidor OJS a client OJS¶
- un del problemes és que el procés no és automàtic, cal fer els fitxers xml i carregar-los després.
- l'OJS de RACO té una configuració pròpia i una revisió de les dades enviades que dóna problemes i errors en les càrregues.
- les càrregues històriques
- Un altre tema és el de penjar o no els pdf a RACO. En Ferran pensa que per a temes de preservació és fonamental el 3, 2, 1. Almenys 3 còpies (rèpliques), en 2 màquines diferents i almenys 1 còpia fora de la UAB.
Importació incompleta.¶
Parlem sobre la qualitat de les dades que es carreguen a RACO, volem que sigui exactament igual a la que té REDI? Per això caldria que la mateixa configuració de REDI la tingués RACO, però en un cas només hi ha una instal·lació i l'altre té una instal·lació per a cada títol.
RACO pot ser menys restrictiu amb la càrrega de les dades??? La situació ideal seria que la qualitat de les dades fos la mateixa i que quedés garantida la preservació tant de les dades (els fitxers) com de les metadades. Per al Servei de Publicacions seria un servei afegit de qualitat, sinó seria una rèplica més i podrien decidir no penjar les revistes a RACO.
Nosaltres hem d'exportar tot el que tenim i és en el moment de la importació que s'han de gestionar els condicionants que apareguin.
Importació completa.¶
Es pot fer de 3 maneres:
- Importació/exportació nativa
- OAI
- Base de dades
- Idiomes (tasca de 15 minuts)
- Seccions
- Correu d'autors (hi ha un patch)
Hi ha camps del xml que són obligats (com el correu de l'autor) i també hi ha problemes de configuració (com en el cas dels idiomes). L'OJS de RACO té configurats només en català, castellà i anglès, i necessitaria activar també el portuguès i el francès. Pel que fa a la càrrega dels pdf el tema dels idiomes no és un problema, ho és només per a les metadades, hi hauria una incoherència d'etiquetat. Si actives un idioma en OJS et genera una matriu, no cal marcar l'opció de la interfície però sí l'entrada de dades. Cal que les dues plataformes es configurin per a ser interoperables.
Les seccions també donen errors en les càrregues; s'hauria de fer una taula d'equivalències i mirar de modificar les seccions de RACO per a que coincideixin amb REDI. Aquesta feina s'hauria de mirar de fer de manera automàtica i des de RACO, però sinó s'assumirà des de la UTP. Abans les seccions eren monolingües, s'entraven tantes seccions com idiomes, mentre que des de fa un any les seccions són multilíngües i, per tant, s'haurien d'unificar les seccions històriques.
Un altre problema seria l'error que dóna amb els correus dels autors, però caldria que l'OJS de RACO no dones una alerta sinó que hi afegis un no-reply per defecte.
Servidor OJS a client Invenio¶
Bàsicament aquestes importacions és farien de REDI cap al DDD. L'OJS pot exportar per NLM, DC, MARC, RFC.
Un dels problemes detectats és sobre el copyright o les llicències que surten malament. En Marc proposa fer una modificació del codi OJS per a solucionar el tema de les llicències CC.
El DDD xucla les dades bàsicament en el format NLM i després completa un parell de camps que no surten des d'altres formats, com el DC. El Ferran està fent proves amb les càrregues i cal fer un mapeig clar entre les dades que exporta REDI i les que necessita DDD, sumant, per exemple, les metadades obligatòries per openAIRE.
Després s'hauria de decidir si es volen fer importacions des de RACO; bibliotecàriament no té sentit, és més complet i tenim més familiaritat amb DDD, però seria una opció si les importacions des del REDI o el DDD no es poden fer cap a RACO.
Servidor Invenio a client OJS - RACO¶
El programari OJS no té un client OAI, si RACO tingués interès i voluntat de recollir les nostres revistes podria capturar-les amb clients externs; és una petició http i et descarrega un fitxer.
Una opció més simple però que genera més feina per la UAB és crear els fitxers xml des del DDD i carregar-los després.
Reunió CBUC:¶
Projecte presentat a la Cartera de projectes del Servei d'Informàtica. L'Autònoma és la primera interessada en tenir totes les revistes de la UAB a RACO. Sembla que sempre hi haurà una feina manual a fer a no ser que el CSUC s'impliqui.
a) la primera opció seria intentar que RACO recol·lectés via OAI els registres del DDD, no calen totes les dades que hi ha al OJS de la UAB, és acceptable el que exportem per Dublin Core? És molta feina per al CSUC?
b) El DDD pot generar xml per pujar a RACO?
c) la tercera opció seria veure fins a quin punt pot ser automàtica la càrrega des de REDI i què passa amb els errors que es donen ara. S'intentaria configurar les plataformes de les revistes a RACO per a que siguin el màxim de semblants a RACO.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #44
Acabo de fer una recol·lecció dels obituaris de la revista Papers des del ReDi. El resultat, 18 articles, està a:
http://ddd-test.uab.cat:2000/collection/recercat
En el moment de passar el programa per enriquir els registres, m'ha petat perquè que no trovaba l'issn 2013-9004. Efectivament, a la taula EquivalenciesEntreRevistaISSNsiglaUAB (que és la que fa servir el programa), de Papers encara hi ha l'ISSN en paper (0210-2862; vegeu http://ddd.uab.cat/record/35).
Vaja, que això de les discrepàncies entre sistemes, i que els valors siguin consistents, no és patrimoni només dels OJS...
Aleshores, Cristina: hauríem de canviar l'ISSN de la taula EquivalenciesEntreRevistaISSNsiglaUAB, no? El que no tinc clar ara mateix és si hem de canviar els articles «antics», i si ho hem de fer, quants? Tots entenc que no, però... Des que té l'ISSN electrònic? Val la pena? Encara no? Ja ho veurem quan ens hi trobem? Com «lligem» els identificadors OAI remots amb el DDD, perquè no dupliquem articles erròniament?
...?
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #45
Estic fent proves aleatòries amb diferents casos; de revistes històriques (Papers) o noves (Brumal), amb recol·lectes parcials o totals.
Pel que estic veient cada revista és un cas, i els hauré d'anar acotant un per un. Les proves estan a la col·lecció http://ddd-test.uab.cat:2000/collection/recercat, i ara mateix hi ha una mica de tot.
MB Actualitzat per Marc Bria fa quasi 12 anys Accions #46
Vaja, que això de les discrepàncies entre sistemes, i que els valors siguin consistents, no és patrimoni només dels OJS...
Mal de molts... i jo que em sento millor. :-D
He rebut respota de la gent de PKP (l'envio per mail):
a) Desaconsellen crear un format OAI per importació/exportació nativa doncs la BD pot canviar entre versions.
b) S'excusen la "pobre" implementació dels formats existents doncs "no son experts".
c) Demanen indicacions per a com fer-ho millor.
He obert un fil al fòrum per anar parlant del tema (quan acabi el post, us envio la URL).
Proposo no tocar com funcionen els formats, però afegir a NLM els dos camps que manquen (licencse i primary_language).
Així millorem l'OJS i fem més fàcil la feina d'altres invenios/dspaces/whatever.
Coses a tenir en compte:
- La implementació dels formats OAI penso que daten del 2007-2008.
- NLM l'especificació de la versió 2.3:
-- Web: http://dtd.nlm.nih.gov/publishing/2.3/
-- XSL: http://dtd.nlm.nih.gov/publishing/2.3/xsd/journalpublishing.xsd
-- DTD: http://dtd.nlm.nih.gov/publishing/2.3/journalpublishing.dtd
- Des de llavors, NLM ha evolucionat fins a això: http://jats.nlm.nih.gov/about.html
Sobre el tag "license", OJS no te un camp específic per a indicar quina llicència te la revista i l'article (i això em sembla preocupant). La proposta que faré a PKP és incorporar (com a mínim) una llicència de revista (a la configuració de la revista) i assumiria en l'exportació OAI-NLM que tots els articles de la revista tenen la mateixa.
Sobre el tema del "primary_language", OJS si que demana l'idioma principal de l'article (primer pas de la tramesa que han de fer els autors) però penso que aquí no em queda clar si el problema està amb el format NLM o en la implementació que fa OJS.
Desenvolupo aquest últim punt:
- He creat dos articles nous a la revista de proves testddd (articles 14 i 15).
- El primer es titula "Article in english" i te "Anglés" com a primary lang.
- El segon es titula "Artículo en español" i te "Espanyol" com a primary lang i traducció de títol/keywords a l'anglés.
Em miro el xmls generats: http://revistes.uab.cat/testddd/oai?verb=ListRecords&metadataPrefix=nlm
El lang que va detectar la Cristina a la capçalera, inicialment era:
<article xsi:schemaLocation="http://dtd.nlm.nih.gov/publishing/2.3 http://dtd.nlm.nih.gov/publishing/2.3/xsd/journalpublishing.xsd" xml:lang="ES" >
Canvio l'idioma per defecte i ara és:
<article xsi:schemaLocation="http://dtd.nlm.nih.gov/publishing/2.3 http://dtd.nlm.nih.gov/publishing/2.3/xsd/journalpublishing.xsd" xml:lang="EN" >
Per tant, fa al·lusió a la llengua per defecte de la revista (no de l'article).
Veig que hi ha una secció "title-group" on s'indica el títol principal i les traduccions:
<title-group> <article-title>Article in spanish</article-title> <trans-title xml:lang="ES" >Artículo en español</trans-title> </title-group>
Tal i com ho implementa OJS, no es pot deduir el primary_lang doncs penso que hauria de ser:
<title-group>
<article-title>Artículo en español</article-title>
<trans-title xml:lang="EN" >Article in spanish</trans-title>
</title-group>
A "cop d'ull" no veig que es marqui el "primary lang" per enlloc. Please, podeu fer-hi una ullada i confirmar?
El tema és que mirant-me el DTD no tinc clar on s'hauria d'indicar el primary_lang.
No se si es tracta d'un problema de la implementació de l'OJS o una mancança de l'especificació NLM (al menys de la versió 2.3, que ja te uns anys).
Què en penseu?
Com veieu, la idea és "centrem-nos en NLM que ens dona dades prou bones i millorem el que calgui".
Si us sembla oka, insistiré amb el tema del "license" doncs veig molt clar que és una mancança endèmica de l'eina que (ara per biblioteques, però sobretot per Publicacions) cal que resolguem.
Sobre el tema del primary_lang, quedo totalment a l'espera dels vostres comentaris.
Ferran, si a banda d'aquests dos casos trobes quelcom que estaria be canviar, avisa please.
Per cert, al revisar les dades del ReDi, no descarteu mai que pugin estar malament en origen.
Insistim a les revistes per a que siguin curosxs, però això no vol dir que ens facin cas. :-)
Sorry pel rotllo. :-P
Salut,
m.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #47
Marc Bria va escriure:
Com veieu, la idea és "centrem-nos en NLM que ens dona dades prou bones i millorem el que calgui".
Estic totalment d'acord amb això. Pel que fa a les mancances/incorreccions, ja hi arribarem; amb els casos que m'he trobat, no em resulta evident si són (a) pel software, (b) pel meu enteniment, (c) que les dades no estan bé o, també, (d) que els meus criteris (bibliotecaris) discrepen dels vostres criteris (editorials). O una combinació d'una o més d'elles.
O sigui, que mica a mica.
MB Actualitzat per Marc Bria fa quasi 12 anys Accions #48
Bones noticies: El tema de la llicència està resolt a 2.4.4:
http://pkp.sfu.ca/support/forum/viewtopic.php?f=8&t=12313
Només manca el "primary_language".
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #49
Marc,
alguns identificadors de registre tenen com a nom de host «redi-formacio.uab.cat», com Brumal, o Enrahonar, ex:
- http://revistes.uab.cat/brumal/oai?metadataPrefix=oai_dc&verb=ListIdentifiers&set=brumal:NC
- oai:brumal.redi-formacio.uab.cat:article/53
- oai:brumal.redi-formacio.uab.cat:article/85
- http://revistes.uab.cat/enrahonar/oai?metadataPrefix=oai_dc&verb=ListIdentifiers&set=enrahonar:NC
- oai:enrahonar.redi-formacio.uab.cat:article/158
- oai:enrahonar.redi-formacio.uab.cat:article/229
Altres ho tenen bé, com Papers, ex:
- http://revistes.uab.cat/papers/oai?metadataPrefix=oai_dc&verb=ListIdentifiers&set=papers:NC
- oai:papers.uab.cat:article/527
- oai:papers.uab.cat:article/549
És important que aquest indentificador OAI sigui estable i fix, perquè és el que dóna la identitat única al registre remot. No sé quina hauria de ser la política, però m'aniria molt bé que fos la mateixa per tothom.
Per exemple, si els identificadors de Papers s'han de quedar així, em seria molt útil que els d'enahonar o brumal tinguessin la mateixa forma, ex: oai:brumal.uab.cat:article/158, o oai:enrahonar.uab.cat:article/158. No tinc ni idea si això presuposa l'existència d'un host amb el nom brumal.uab.cat o enrahonar.uab.cat.
Com ho veus?
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #50
Marc,
per poder agafar tots els articles publicats de cada revista menys en número complet, m'ha semblat que puc fer-ho agafant tots els registres menys aquells que estan identificats per l'oaiset revista:NC.
La meva pregunta és: sempre que publiqueu el número sencer en un sol PDF, utilizeu sempre la convenció sigla-de-la-revista-exactament-igual-que-l-identificador-oaid:NC? Com aquests exemples, vull dir:
- http://revistes.uab.cat/brumal/oai?metadataPrefix=oai_dc&verb=ListIdentifiers&set=brumal:NC
- http://revistes.uab.cat/enrahonar/oai?metadataPrefix=oai_dc&verb=ListIdentifiers&set=enrahonar:NC
- http://revistes.uab.cat/papers/oai?metadataPrefix=oai_dc&verb=ListIdentifiers&set=papers:NC
Puc enfiar-me'n?
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #51
Vistes les discrepàncies entre els títols, subtítols i la seva puntuació, entenc que he d'agafar el títol propi de la revista del mateix lloc que si els articles fossin catalogats a mà, que és, a partir de l'ISSN, utilitzar la taula EquivalenciesEntreRevistaISSNsiglaUAB.
Ja ho acabo d'implementar.
MB Actualitzat per Marc Bria fa quasi 12 anys Accions #52
Sento el retard. Vaig per punts.
Sobre #866#note-49:
Certament, es tracta d'un error que aparegui "redi-formacio". Ara mateix faré canvi al template que utilitzem per a que no torni a passar i canviaré les revistes al que acordem.
dius:
És important que aquest indentificador OAI sigui estable i fix, perquè és el que dóna la identitat única al registre remot. No sé quina hauria de ser la política, però m'aniria molt bé que fos la mateixa per tothom.
Encantat de fer-ho. Dubto que hi hagi cap política al respecte, però ja no només pel DDD, la uniformitat sempre resulta útil.
Per exemple, si els identificadors de Papers s'han de quedar així, em seria molt útil que els d'enahonar o brumal tinguessin la mateixa forma, ex: oai:brumal.uab.cat:article/158, o oai:enrahonar.uab.cat:article/158. No tinc ni idea si això presuposa l'existència d'un host amb el nom brumal.uab.cat o enrahonar.uab.cat.
No tinc la certesa, però sospito que no cal que tingui un host associat.
Que et sembla si uniformitzo com:
- papers.redi.uab.cat
- brumal.redi.uab.cat
Dubto que ningú més a la UAB utilitzi algun dia identificadors OAI, però indicant el servei, segur que no hi ha col·lissions.
Faig el canvi ara mateix.
Merci per avisar de l'error.
MB Actualitzat per Marc Bria fa quasi 12 anys Accions #53
Correcció.
Parlo amb en Pep i es partidari de que el patró sigui:
- papers.revistes.uab.cat
- brumal.revistes.uab.cat
(Que per cert, permet extrapolar-ne una url d'accés ja que tot i que el domini pugui ser un altre, sempre existirà un "http://revistes.uab.cat/papers")
Seguim
CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions #54
- Tema ha canviat de Importació de dades de RACO i ReDi - PRJ153 a Importació de dades de RACO - PRJ152 i ReDi - PRJ153
CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions #55
Després de la reunió amb el CSUC hem avançat:
- del REDI les proves estan avançades i sembla la possibilitat de càrrega automàtica més adient pel DDD. Podem dir que aquest objectiu està al 60%, pensem que cada revista tindrà les seves particularitats i això ens portarà feina. També caldrà indicar les adreces de REDI i RACO a cada una dels registres bibliogràfics.
- pel que fa a RACO de moment treballem des de la UTP per a uniformitzar la parametrització de cada revista (idiomes, visualització...), a més d'esborrar registres no assignats i netejar les seccions. Cal que el CSUC implementi el tema dels idiomes per a fer la uniformització. Un cop això estigui fet i provat sembla que en el termini de dos mesos seria possible tenir totes les revistes arreglades.
La millor opció de carrega sempre serà de REDI a RACO perquè en carrega tot el procés de l'editor. En paral·lel haurem de treballar per poder carregar fitxers xml des de DDD, per a les revistes que no estan a REDI. Per a fer això valorem positivament tot l'aprenentatge que estem fent de les càrregues de REDI a DDD.
MB Actualitzat per Marc Bria fa quasi 12 anys Accions #56
Parlo del #866-50 amb en Pep i et dic.
Tot i que avanço que ara mateix "no ens en podem fiar de res".
Com comentava, nosaltres fem entrega de la revista amb recomanacions però deleguem la gestió i per tant, poden NO seguir les recomanacions.
Ara mateix, les recomanacions son a nivell de creació de URLs i poca cosa mes.
Penso que:
a) a partir del que va sortint aquí, fem un llistat ampliat i demanar a les revistes que ho respectin
b) o donar-vos a biblioteques en ens feu arribar les discrepàncies per a que parlem amb les revistes.
(O totes dues).
Sobre el #866-51:
De nou, no te'n pots fiar, però podem fer un repàs i uniformitzar.
Em sembla recordar que amb la norma que utilitzeu seria "Papers : Revista de sociologia" ?
Sense punt final, no?
Parlo amb en Pep.
Cristina, veig el post que fas i em pregunto si no estem barrejant massa temes a una sola incidència.
No tendria sentit obrir un fil nou per al tema de les exportacions del ReDi al RACO?
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #57
Marc Bria va escriure:
Parlo amb en Pep i es partidari de que el patró sigui:
- papers.revistes.uab.cat
- brumal.revistes.uab.cat
(Que per cert, permet extrapolar-ne una url d'accés ja que tot i que el domini pugui ser un altre, sempre existirà un "http://revistes.uab.cat/papers")
Perfecte, ja he fet les adaptacions.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #58
Marc Bria va escriure:
Em sembla recordar que amb la norma que utilitzeu seria "Papers : Revista de sociologia" ?
Sense punt final, no?
Segurament, i per raons històriques, de migracions, de canvis de criteri, hi ha inconsistències. Per això, el tingueu com el tingueu, em convé agafar-los tots d'un sol lloc, i prefereixo que sigui EquivalenciesEntreRevistaISSNsiglaUAB, que els tinc tots juntets i des de la UTP poden fer les correccions fàcilment si ho creuen convenient.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #59
Marc Bria va escriure:
No tendria sentit obrir un fil nou per al tema de les exportacions del ReDi al RACO?
Totalment d'acord. Per mi, una tasca per cada parella importació/exportació (i diferent a l'exportació/importació de la mateixa parella de sistemes!).
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #60
- Tema ha canviat de Importació de dades de RACO - PRJ152 i ReDi - PRJ153 a Exportació des de ReDI al DDD - PRJ153
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #61
- S'ha actualitzat Descripció (diferències)
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #62
Amb la Cristina ja hem millorat la captura dels registres dels articles. També hem repassat el circuit, i hem quedat que:
- De ReDI, capturats via OAI en format DC, passen (temporalment) a la col·lecció http://ddd.uab.cat/collection/recercat
- A la nit, un procés agafa cada registre en format DC i l'enriqueix a partir del que donen de sí els mateixos registres en format NLM i RFC1807 a ReDi, que ens proporcionen pràcticament tota la informació que ens cal per generar-lo en Marc21.
- Els registres enriquits passen a la col·lecció http://ddd.uab.cat/collection/revisarutp.
- També s'hauria de capturar el PDF, i normalilitzar-hi el nom, però ara mateix està temporalment desactivat, i que anirà també a http://ddd.uab.cat/rev/
A partir d'aquestes proves, hem aprofitat els registres del vol. 25 n. 2 de Redes, processat al DDD-test, al DDD, i els hem deixat com si s'haguessin carregat automàticament.
La Cristina crearà una definició de captura (harvesting) OAI per a cadascuna de de les revistes, perquè al ReDI cada revista té el seu propi OJS i el seu propi servidor OAI.
A partir de l'octubre sortiran els nous números de les revistes i s'haurà d'acabar d'ajustar tot el procés en funció de les particularitats que ens anem trobant.
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #63
La captura dels PDFs dels dos números de prova (Redes v 25 n 2, 2014, Rubrica Contemporánea v 3 n 5, 2014) ja està feta (ex: http://ddd.uab.cat/record/119096)
De moment només funciona per a aquells articles que tenen un sol PDF (la majoria), perquè quan en tenen més d'un, OJS els gestiona diferent, i no he tingut ocasió de provar-ho.
CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #64
He fet 10 sets per a la recol·lecció de les revistes de REDI al DDD. De moment no en faig més fins a comprovar que tot funciona correctament.
Aquest mes d'octubre sortiran tres nous números, DAG, Enrahonar i Papers. Totes tres ja tenen fet el set i caldrà comprovar que el circuit funciona correctament.
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #65
Acabo de confirmar que la tasca oaiharvest recol·lecta tots els oaisets definits, o sigui que no cal que modifiqui els paràmetres.
Però, per sorpresa meva, també acabo d'adonar-me'n que hi ha un paràmetre que hauria de permetre recol·lectar per dates específiques. Per tant, si sabeu d'algun número d'alguna revista ja publicada, resulta que la puc recol·lectar. Sento no haver-m'hi fixat abans.
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #66
La setmana passada vam tenir la sorpresa que al DDD estaven entrant registres OAI de registres antics. Sopresa! Després de mirar-nos-ho amb la Cristina, vam veure que es tracta dels registres antics que el Servei de Publicacions, o els editors de les revistes, estan carregant al seo OJS.
En vam estar parlant amb la Cristina i vam decidir provar una estratègia una mica ad-hoc: que, al DDD, via OAI, si el servidor és http://revistes.uab.cat, només carregarà els registres si la seva data (en Dublin Core, el camp dc:date) és major o igual a 2014. Si no, els deixarà en uns fitxers interns que podem inspeccionar periòdicament.
Dit això, de moment la notícia és bona que la primera part, la recol·lecció OAI funciona. A partir d'això, posaré en marxa la segona fase, que és l'enriquiment dels registres a partir de les sintaxis NLM i RFC1807, tal com està explicat en altres entrades d'aquesta tasca.
CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #67
- S'ha afegit Fitxer Mapeig_RACO_a_CCUC_a2014m7.docx Mapeig_RACO_a_CCUC_a2014m7.docx
Per si pot ser d'utilitat penjo aquí el mapeig que ha fet el CCUC dels registres de RACO.
CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #68
Avui es publiquen a REDI tres títols: Enrahonar, Papers i DAG
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #69
Cristina Azorin va escriure:
Avui es publiquen a REDI tres títols: Enrahonar, Papers i DAG
Perfecte! A veure com ens arriben demà...
CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #70
- Data de venciment ha canviat de 27-06-2014 a 19-12-2014
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #71
De moment, s'estan carregant bé a la col·lecció revisar:
http://ddd.uab.cat/collection/revisar
També s'estan baixant els PDFs i enriquint els registres. No queda clar que si en el OJS hi ha més d'un PDF baixin tots al DDD i es creïn els 856 corresponents. Ho dic així perquè no hi sé veure la regla que fa servir OJS per enllaçar a un o més PDFs.
Un altre tema és l'adreça del servidor origien. P. ex., per als Documents d'Anàlisi Geogràfica, m'estic trobant que l'adreça origen és http://dag.revista.uab.es. No hauria de ser http://revistes.uab.cat/dag?
MB Actualitzat per Marc Bria fa més de 11 anys Accions #72
Disculpes per la demora en la resposta. He estat de baixa.
No queda clar que si en el OJS hi ha més d'un PDF baixin tots al DDD i es creïn els 856 corresponents.
Ho dic així perquè no hi sé veure la regla que fa servir OJS per enllaçar a un o més PDFs.
Aquí no et segueixo Ferran... 856?? :-/
En NLM s'ofereixen tots els articles en tots els formats disponibles.
Pe: Aquest article està amb 3 langs i per tant mostra 3 pdfs:
http://atheneadigital.net/oai?verb=GetRecord&metadataPrefix=nlm&identifier=oai:athenea.revistes.uab.cat:article/386
Pe: Aquest article s'ha publicat en PDF i amb HTML i mostra els dos links:
atheneadigital.net/oai?verb=GetRecord&metadataPrefix=nlm&identifier=oai:athenea.revistes.uab.cat:article/1390
No se si et resultarà d'ajut. :-)
Un altre tema és l'adreça del servidor origien. P. ex., per als Documents d'Anàlisi Geogràfica, m'estic
trobant que l'adreça origen és http://dag.revista.uab.es. No hauria de ser http://revistes.uab.cat/dag?
Totes les revistes del ReDi tenen com a mínim 2 adreces base:
http://revistes.uab.cat/<tagRevista>
http://revistes.uab.es/<tagRevista>
A banda, també poden tenir un subdomini UAB:
http://<tagRevista>.uab.cat
http://<tagRevista>.uab.es
Fins i tot subdominis propis:
http://[www].<tagRevista>.[org|net|com]
Els dominis propis es permeten, sobretot a dos motius:
a) Motius històrics (la revista tenia un domini propi abans d'arribar al servei i el volen mantenir).
b) La revista vol mantenir la seva autonomia, per si vol migrar algun dia lluny del ReDi o fin i tot per motius d'imatge...
Per tant, podem trobar la mateixa revista sota múltiples àlies.
Des del servei, quan la revista es dona d'alta, demanem que ens digui "quin és el seu domini principal" doncs l'OJS necessita saber com generar les URLS.
Però per altre banda, configurem l'Apache per a que respongui igual per a qualsevol dels aliàs de la revista i definim un robot.txt per a que els cercadors només pugin veure el "domini principal".
En resum:
a) El domini "http://revistes.uab.cat/<tagRevista>" és perfectament funcional de cara a fer consultes.
b) L'OAI respondrà amb un xml amb el domini principal (no l'àlies).
Ferran, respon això a la pregunta?
Salut,
m.
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #73
Marc Bria va escriure:
Disculpes per la demora en la resposta. He estat de baixa.
No queda clar que si en el OJS hi ha més d'un PDF baixin tots al DDD i es creïn els 856 corresponents.
Ho dic així perquè no hi sé veure la regla que fa servir OJS per enllaçar a un o més PDFs.Aquí no et segueixo Ferran... 856?? :-/
Perdona, és la url (etiqueta 856 en Marc21)
En NLM s'ofereixen tots els articles en tots els formats disponibles.
Pe: Aquest article està amb 3 langs i per tant mostra 3 pdfs:
http://atheneadigital.net/oai?verb=GetRecord&metadataPrefix=nlm&identifier=oai:athenea.revistes.uab.cat:article/386Pe: Aquest article s'ha publicat en PDF i amb HTML i mostra els dos links:
http://atheneadigital.net/oai?verb=GetRecord&metadataPrefix=nlm&identifier=oai:athenea.revistes.uab.cat:article/1390No se si et resultarà d'ajut. :-)
Segurament, gràcies; potser se'm va pasar, m'ho tornaré a mirar.
Un altre tema és l'adreça del servidor origien. P. ex., per als Documents d'Anàlisi Geogràfica, m'estic
trobant que l'adreça origen és http://dag.revista.uab.es. No hauria de ser http://revistes.uab.cat/dag?Totes les revistes del ReDi tenen com a mínim 2 adreces base:
http://revistes.uab.cat/<tagRevista>
http://revistes.uab.es/<tagRevista>A banda, també poden tenir un subdomini UAB:
http://<tagRevista>.uab.cat
http://<tagRevista>.uab.esFins i tot subdominis propis:
http://[www].<tagRevista>.[org|net|com]
Jo em refereixo a l'adreça tal com surt en OAI, i això inclou, que no és poc, l'identificador del registre, el que permet si aquest registre el tenim o no el tenim al DDD. Fixa't el paràmetre identifier:
- http://revistes.uab.cat/dag/oai?verb=ListIdentifiers&metadataPrefix=oai_dc&set=dag:ART
- http://revistes.uab.cat/dag/oai?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:dag.revistes.uab.cat:article/2
[...]
Ferran, respon això a la pregunta?
No del tot, perquè el que més rellevant em resulta és una identificació unívoca del registre, i això requereix un nom de host igualment unívoc en tant que sortida OAI. Per poc que ho puguis arreglar abans de la propera tongada, ens faries un favor.
Gràcies.
MB Actualitzat per Marc Bria fa més de 11 anys Accions #74
Jo em refereixo a l'adreça tal com surt en OAI, i això inclou, que no és poc, l'identificador del registre,
el que permet si aquest registre el tenim o no el tenim al DDD. Fixa't el paràmetre identifier:
http://revistes.uab.cat/dag/oai?verb=ListIdentifiers&metadataPrefix=oai_dc&set=dag:ART
http://revistes.uab.cat/dag/oai?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:dag.revistes.uab.cat:article/2
A d'acord... llavors oblida tot el rotllo dels dominis pq. l'identificador OAI del host és un paràmetre de configuració de l'OJS.
...el que més rellevant em resulta és una identificació unívoca del registre, i això requereix un
nom de host igualment unívoc en tant que sortida OAI. Per poc que ho puguis arreglar abans de la
propera tongada, ens faries un favor.
La sintaxis actual no va be? Em sembla recordar que ho vaig canviar fa temps per a unificar criteri.
Ara seria com això: oai:<tagRevista>.revistes.uab.cat:article/<idArticle>
Funciona oka per les diferents revistes que he provat, sense importar quin és el "domini principal":
- DAG: http://revistes.uab.cat/dag/oai?verb=Identify
- Exemple: oai:dag.revistes.uab.cat:article/1
- Papers: http://papers.uab.cat/oai?verb=Identify
- Exemple: oai:papers.revistes.uab.cat:article/1
- Tradumatica: http://revistes.uab.cat/tradumatica/oai?verb=Identify
- Exemple: oai:tradumatica.revistes.uab.cat:article/1
- ELCVIA: http://elcvia.cvc.uab.es/oai?verb=Identify
- Exemple: oai:elcvia.revistes.uab.cat:article/1
- Athenea: http://atheneadigital.net/oai?verb=Identify
- Exemple: oai:athenea.revistes.uab.cat:article/1
- Brumal: http://revistes.uab.cat/brumal/oai?verb=Identify
- Exemple: oai:brumal.revistes.uab.cat:article/1
Què t'has trobat algun contraexemple?
Gràcies a vosaltres,
m.
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #75
Marc Bria va escriure:
Jo em refereixo a l'adreça tal com surt en OAI, i això inclou, que no és poc, l'identificador del registre,
el que permet si aquest registre el tenim o no el tenim al DDD. Fixa't el paràmetre identifier:
http://revistes.uab.cat/dag/oai?verb=ListIdentifiers&metadataPrefix=oai_dc&set=dag:ART
http://revistes.uab.cat/dag/oai?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:dag.revistes.uab.cat:article/2A d'acord... llavors oblida tot el rotllo dels dominis pq. l'identificador OAI del host és un paràmetre de configuració de l'OJS.
...el que més rellevant em resulta és una identificació unívoca del registre, i això requereix un
nom de host igualment unívoc en tant que sortida OAI. Per poc que ho puguis arreglar abans de la
propera tongada, ens faries un favor.La sintaxis actual no va be? Em sembla recordar que ho vaig canviar fa temps per a unificar criteri.
Ara seria com això: oai:<tagRevista>.revistes.uab.cat:article/<idArticle>
[...]
Què t'has trobat algun contraexemple?
Em refereixo al que em trobo en els valors dels registres, com ara aquest (el mateix en tres sintaxis):
- http://revistes.uab.cat/dag/oai?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:dag.revistes.uab.cat:article/2
- http://revistes.uab.cat/dag/oai?verb=GetRecord&metadataPrefix=nlm&identifier=oai:dag.revistes.uab.cat:article/2
- http://revistes.uab.cat/dag/oai?verb=GetRecord&metadataPrefix=marcxml&identifier=oai:dag.revistes.uab.cat:article/2
Fixa't amb els camps «Resource Identifier» i «Relation». Parlen de http://dag.revista.uab.es en comptes de http://dag.revistes.uab.cat. No ho he repassat en totes les revistes, però diria que passa en altres a part del DAG.
Aquestes inconsistències fan molt de mal, perquè fan referència a la identificació permanent del registre, que és el que permet fer enllaços, saber si ja està carregat, detectar duplicats, etc. Totes haurien de fer referència a <revista>.revistes.uab.cat.
Quan ho tinguis corregit, avisa'm immediatament, que jo he de fer els canvis en els registres ja en el DDD perquè no quedin duplicats.
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #76
Ferran Jorba va escriure:
Aquestes inconsistències fan molt de mal, perquè fan referència a la identificació permanent del registre, que és el que permet fer enllaços, saber si ja està carregat, detectar duplicats, etc. Totes haurien de fer referència a <revista>.revistes.uab.cat.
Quan ho tinguis corregit, avisa'm immediatament, que jo he de fer els canvis en els registres ja en el DDD perquè no quedin duplicats.
De moment he aturat la captura automàtica fins que no tinguem els identificadors idèntics a les dues bandes.
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #77
Després d'una llarga conversa telefònica entre el Marc i jo, entenc millor la situació actual i em sento més tranquil. Les conclusions que n'he tret, des del punt de vista de com pot afectar al DDD, són aquestes:
- Per a cada revista hi ha una sèrie d'URLs, una d'oficial (beneïda pels editors de la revista) i les altres que són àlies, degut a diferents motius i sovint per mantenir l'accessibilitat des d'URLs existents ja publicades. En això, cada revista té la seva història i circumstàncies.
- Però, i des del punt de vista del de l'OAI i, per tant del DDD i potser Racó o altres recol·lectors, l'identificador de registre sempre és el mateix, s'hi accedeixi des de l'adreça que s'hi accedeixi, sigui primària o àlies. Sempre és oai:<tagRevista>.revistes.uab.cat:article/número (ex: oai:papers.revistes.uab.cat:article/23; observeu que és el mateix si fem la petició desde http://papers.uab.cat/oai?verb=ListIdentifiers&metadataPrefix=oai_dc que des de http://revistes.uab.cat/papers/oai?verb=ListIdentifiers&metadataPrefix=oai_dc). El DDD sempre hi està accedint des d'aquesta adreça OAI unificada.
- Les adreces que puguin haver-hi dins del registre, com les dels PDFs en els exemples del punt anterior, apunten a l'adreça primària, oficial de la revista. Part de la confusió que jo tenia era degut a l'existència d'adreces del tipus http://dag.revista.uab.es/, massa semblant a http://revistes.uab.cat/dag/.
O sigui, que podem discrepar dels criteris de com s'assignen les adreces (URLs) de les revistes a la UAB, però la veritat és que el servei OAI que dóna els OJS del Servei de Publicacions que ha muntat el Marc Bria dóna uns identificadors perfectament consistents, cosa que aprofito per agrair-li públicament.
D'altra banda, m'ha confirmat que, a hores d'ara, tots els OJS de la UAB, al menys aquells dels que tenen coneixement, estan agrupats en aquesta plataforma. Hi ha algunes revistes, com Publicacions Matemàtiques, que no en formen part, però la veritat és que ara mateix tampoc no funcionen pas amb OJS.
MB Actualitzat per Marc Bria fa més de 11 anys Accions #78
Si a tot Ferran.
Faré extensiu el teu agraïment a la gent de PKP doncs el merit es tot seu. ;-P
Qualsevol cosa, fes un toque.
CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #79
Al oai harvest del DDD ja han quedat configurades totes revistes disponibles actualment a través del servei de REDI, en total 26 títols.
CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #80
El gmail del Ferran i el meu personal ja estan connectats al calendari de revistes del SdP. Les properes dates són:
- lun 10 de nov de 2014: Educar especial 30 aniversari
- lun 17 de nov de 2014: Quaderns d'Italià 19
- lun 1 de dic de 2014: Catalan Journal of Linguistics 13
- lun 8 de dic de 2014: Orsis 28
- lun 15 de dic de 2014: Recerca Musicològica 20-21 i Studia Aurea, vol. 8
- jue 1 de ene de 2015: Papers 100/1 i Educar 51/1
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #81
Avui s'ha recollit automàticament Educar i està a la col·lecció http://ddd.uab.cat/collection/revisar.
Hi ha al menys un parell d'incidències:
- No s'han baixat tots els PDFs. El motiu és perquè Educar té una variant més dels noms dels PDFs, en concret, un guió baix i la inicial de la llengua (ex, pdf_es, vegeu http://educar.uab.cat/article/view/v50-esp-aguaded-cabero), mentre que fins ara la llengua anava precedida per guió alt (ex pdf-en, ex. http://papers.uab.cat/article/view/v99-n4-boudon). Ja he afegit aquest cas i a partir de la següent recol·lecta ja es recolliran correctament.
- És un número extraordinari del 30è aniversari, i les metadades OJS per a la numeració són ambigües i els camps de numeració no s'han omplert correctament; de fet, encara no sé com s'han de fer ;-)
MB Actualitzat per Marc Bria fa més de 11 anys Accions #82
De nou, merci per fer de filtre. ;-)
Sobre 1:
Ara mateix estem fent el canvi de "_" per "-".
Us demanaríem que NO modifiqueu l'script per acceptar "_".
Ens interessa que les revistes facin la feina ben feta i l'script és el millor controlador que tenim.
No se si heu fet més canvis a l'script per a ser més tolerant.
Ho parlo amb en Pep, però sóc de la opinió que ens cal un controlador "alemany".
Sobre 2:
En Pep ho ha parlat amb en Jordi i la proposta de sintaxis que fan pels números especial (que no tenen Número) és: "v50-esp"
S'accepten propostes alternatives. ;-)
FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #83
Marc Bria va escriure:
De nou, merci per fer de filtre. ;-)
Sobre 1:
Ara mateix estem fent el canvi de "_" per "-".
Us demanaríem que NO modifiqueu l'script per acceptar "_".
D'acord, entesos, he desfet l'apanyo.
Ens interessa que les revistes facin la feina ben feta i l'script és el millor controlador que tenim.
No se si heu fet més canvis a l'script per a ser més tolerant.
Avui no.
Ho parlo amb en Pep, però sóc de la opinió que ens cal un controlador "alemany".
Jo estava aplicant la Llei de Postel (https://en.wikipedia.org/wiki/Robustness_principle), però com que obliga les dues parts, fantàstic que tu t'hi apuntis ;-)
Sobre 2:
En Pep ho ha parlat amb en Jordi i la proposta de sintaxis que fan pels números especial (que no tenen Número) és: "v50-esp"
S'accepten propostes alternatives. ;-)
Bé, aquesta part em referia a la part catalogràfica-bibliotecària, que ni me l'he mirada. Entenc que els casos especials, aquests que passen tan poc, millor tractar-los manualment, perquè per això són especials...
NC Actualitzat per Núria Casaldaliga fa més de 11 anys Accions #84
- Estat ha canviat de En curs a Tancada
Per a l'any 2014 cal repassar atentament els articles perquè podem trobar alguns de duplicats; l'any 2015 ja no passarà.
Tanquem la tasca perquè les càrregues ja estan automatitzades.
CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #85
- Paraula clau s'ha suprimit (
JR cartera)