Projecte

General

Perfil

Accions

Tasca #5746

tancat
CA FJ

Adreces alternatives de RACO dupli-tripli... cades

Tasca #5746: Adreces alternatives de RACO dupli-tripli... cades

Afegit per Cristina Azorin fa quasi 6 anys. Actualitzat fa aproximadament 4 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Suport a docència i recerca
Inici:
06-05-2020
Data de venciment:
25-03-2022
Paraula clau:

Descripció

No se si ha estat pel canvi de versió de l'OJS de RACO però hi ha registres amb adreces de RACO que enllacen a la pàgina inicial i no a l'article directament, exemples:

- https://ddd.uab.cat/record/174814
- https://ddd.uab.cat/record/144849
- https://ddd.uab.cat/record/91305

Cal repassar perquè en alguns casos no s'enllaça a la versió original del servei REDI.


Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #6807: Normalització del les urls de les webs OJSTancadaFerran Jorba02-02-202220-10-2022Accions

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #1

Ferran, penso que no hi ha manera automàtica de fer-ho però m'ho pots confirmar abans de passar la tasca a algú que faci un repàs manual?

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #2

Uf. D'una banda, el que sí que crec que podem donar per bo és que a Racó l'ultima part de la url sempre és numèrica. Així, si trobem aquest cas, la primera segur que és un error:

A més, estic veient que les adreces de Racó continuen essent una mica caòtiques. Ara mateix ho tenim així:

  • 27673 acaben amb un identificador numèric
  • 1735 acaben amb un identificador no numèric (això inclou les que apunten a la pàgina de la revista)

Jo faria dues accions:

  1. la primera, més estètica però que facilita el tractament posterior, seria normalitzar les 51+55 del primer grup perquè totes comencin per https://www.raco.cat.
  2. la segona, seria començar pel llistat d'errors de https://ddd.uab.cat/qualitat/check856urls.html, i totes les donen error que acabin amb un identificador no numèric i donen error, posar-les en una llista a https://ddd.uab.cat/qualitat/ per decidir què fem. Probablement es podran esborrar, però jo m'ho miraria abans.

Què et sembla?

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #3

Des d'avui s'actualitzaran diàriament aquests tres llistats:

Els dos primers recullen la meva primera proposta. Però veient que moltes d'elles són adreces que ara mateix ja donen error, jo el que faria seria repassar-les manualment; corregir-les o esborrar-les, i quan quedin a zero, passaria a la segona fase.

El darrer són els sospitosos, que la part final no és numèrica, per si us els voleu començar a mirar.

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #4

  • Estat ha canviat de Creada a En curs

Gràcies Ferran, les teves estadístiques van molt bé i els llistats genials, veure si algú es pot encarregar de les correccions...

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #5

Perfecte, me n'alegro!

Pel que fa a les etiquetes dolentes, mirant el llistat https://ddd.uab.cat/qualitat/https-www-raco-cat-no-numeric.html, jo diria que les que inclouen /article/view/ i la part final no numèrica (1546 urls del total de 1703) són molt probablement algunes de les que ja es podrien esborrar automàticament, i després anar analitzant com queden les altres.

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #6

  • Assignat a ha canviat de Ferran Jorba a Eulàlia Serre

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #7

Ferran, potser no podem donar per fet que les adreces sempre finalitzin amb números, per exemple: https://www.raco.cat/index.php/Bellaterra/article/view/v1-n2-salvador-alves-martins

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #8

Ah, sí, però diria que això és un àlias, perquè amb número també funciona. És a dir, si mirem el nostre registre Marc:

Veurem que la 035 de Racó és oai:raco.cat:article/340790 i, per tant, tant podem utiltizar la url que consta, com amb al número, ex:

Això d'aquests noms semàntics crec que és una dèria del Marc Bria i, sincerament, no sé gaire si és funcional, i diria que a Racó només ho he vist amb revistes de la UAB, però no puc confirmar-ho. Jo abans hi posaria alguna cosa com el títol o l'any, no la numeració i/o algun autor, però vaja. Si volguéssim, a partir de les 035 podríem posar totes les adreces dels articles de Racó numèriques.

I per les poques que són, jo m'ho plantejaria. Una altra cosa és el cas del servidor OJS de revistes.uab.cat, aquest les hi respectaria.

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #9

Ferran Jorba va escriure:

Si volguéssim, a partir de les 035 podríem posar totes les adreces dels articles de Racó numèriques.

Me'n desdic; no les podem canviar perquè tornarien a entrar, ja que és aquesta la url pública que consta a Racó, ex:

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #10

  • Assignat a ha canviat de Eulàlia Serre a Ferran Jorba

Caldrà fer un llistat per veure quants articles tenen més d'una adreça de RACO, no trobem una altra manera de solucionar-ho.

FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #11

  • Assignat a ha canviat de Ferran Jorba a Eulàlia Serre

Ja està fet. Són registres amb més d'una 856 a Racó; probablement una d'elles no funciona, però com que no dóna error, és molt difícil que el programa el pugui detectar, i em temo que caldrà esborrar la dolenta a mà:

https://ddd.uab.cat/qualitat/https-www-raco-cat-duplicat.html

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #13

  • Estat ha canviat de En curs a Tancada

Hem obert una tasca interna a UTP-Serveis d'Informació, tanquem aquesta

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #14

  • Paraula clau s'ha suprimit (NCR)

CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #15

  • Data de venciment ha canviat de 20-11-2020 a 30-04-2021
  • Estat ha canviat de Tancada a En curs
  • Assignat a ha canviat de Eulàlia Serre a Ferran Jorba
  • Paraula clau s'ha establert a NCR

Des de la UTP hem intentat fer aquesta eliminació de forma manual però les adreces es tornen a generar automàticament.

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #16

  • Data de venciment ha canviat de 30-04-2021 a 17-09-2021

Els casos principals ja estan fets, i algunes adreces són correctes perquè hi ha dos pdf als registres.

Queden els casos complicats que el Ferran els farà en una època de menys càrrega de feina.

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #17

Quan teníem aquesta tasca endormiscada en les fases finals resulta que va ser quan el CSUC va decidir suprimir el www de l'adreça web de Racó (ah, i sense avisar!). Això ha fet que ara hi ha un embolic de quines són duplicades per causes "misterioses" (que era el propòsit d'aquesta tasca) i quines ho són perquè s'han afegit les adreces raco.cat a www.raco.cat que ja existien.

He adaptat el programa perquè tracti els dos casos. Avui n'he processat un centenar, però en queden més. És a dir, la tasca havia estat mig adormida però ara l'he despertat i continua en curs.

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #18

  • Data de venciment ha canviat de 17-09-2021 a 25-03-2022
  • Prioritat ha canviat de Normal a Alta

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #19

  • Estat ha canviat de En curs a Tancada

De fet, repassant les urls de Racó, un dels problemes que hem tingut és que tenim diferents formes de url segons (a) la versió d'OJS i (b) com l'ha recollit el programa o la persona que doni una url de Racó.

Bàsicament he vist que els problemes es poden resumir en dos:

  1. L'alternança del www o sense
  2. La forma de la url de l'article, que he troba que poden ser:

Aquest últim exemple és significatiu, perquè no és de Racó (on ja no en queda cap), però sí d'OJS, i he vist que els mateixos problemes de Racó (menys el prefix www) ens els trobem amb moltes urls d'OJS. D'aquestes urls en continuen entrant, ja sigui via formularis o via Egreta, i si no els normalitzem, se'ns dupliquen.

Jo crec que el problema d'aquesta tasca ja no es dona (https://ddd.uab.cat/qualitat/https-www-raco-cat-duplicat.html), però sí que l'hem d'abordar pel que fa a les urls d'OJS, i per tant en faré una tasca nova.

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #20

  • Prioritat ha canviat de Alta a Normal
  • Paraula clau s'ha suprimit (NCR)

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #21

  • S'ha afegit relacionat amb Tasca #6807: Normalització del les urls de les webs OJS
Accions

També disponible a: PDF Atom