Projecte

General

Perfil

Accions

Tasca #4569

tancat
CA FJ

Normalitzar les referències de la Viquipèdia al DDD

Tasca #4569: Normalitzar les referències de la Viquipèdia al DDD

Afegit per Cristina Azorin fa quasi 9 anys. Actualitzat fa aproximadament 7 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Tecnologia
Temàtica prevista:
Inici:
26-05-2017
Data de venciment:
20-12-2018
Paraula clau:

Descripció

Generar un llistat de correspondència entre els pdf referenciats directament a la Viquipèdia i els registres del DDD (amb la URL recomanada).

S'hauria d'executar periòdicament.


Fitxers

correccio_enllacos_ddd.csv (7.35 KB) correccio_enllacos_ddd.csv Correccions d'enllaços al a viquipèdia Ferran Jorba, 29-05-2017 14:43
correccio_enllacos_ddd.csv (8.1 KB) correccio_enllacos_ddd.csv Segona part de les correccions a la viquipèdia Ferran Jorba, 30-06-2017 16:24

Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #4567: Tasques relacionades a la presència del DDD a la ViquipèdiaTancadaCristina Azorin26-05-201714-11-2018Accions

CA Actualitzat per Cristina Azorin fa quasi 9 anys Accions #1

  • S'ha afegit relacionat amb Tasca #4567: Tasques relacionades a la presència del DDD a la Viquipèdia

FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #2

Ja està en marxa. Com passa de vegades, en el moment de preparar el fitxer d'equivalències, van sortir algunes sorpreses al DDD, que hem hagut de tenir en compte:

  1. Registres al DDD amb la mateixa 856.
  2. URLs de la viquipèdia que apunten a un sol document d'un registre al DDD que en té molts.

De moment ja he passat un fitxer amb 75 correccions, que servirà una mica de banc de proves, i l'adjunto a la tasca perquè sigui fàcil verificar-ho. D'aquí en sortiran altres tasques, amb exemples dels casos que he esmentat a dalt.

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #3

  • Prioritat ha canviat de Normal a Alta

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #4

Ja he passat la segona part de les correccions trivials, 101 correccions d'adreces a registres que només tenen un sol document (pdf o jpg). L'adjunto aquí també.

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #5

L'Àlex Hinojo de la Viquipèdia catalana ens acaba de confirmar que ja han fet tots els canvis que ens els hi hem enviat fins ara.

Ara nosaltres haurem de pensar com creiem que és millor resoldre els altres casos, és a dir, quan un article es refereix a un document (p. ex., un pdf) que forma part d'un registre que té més d'un document associat i, per tant, la seva url no té tantes garanties de ser permanent.

Segurament primer farem una mica de números.

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #6

  • Data de venciment ha canviat de 28-07-2017 a 27-10-2017

Ara cal fer:

- modificar les adreces de http a https
- fer que el llistat es generi de manera periòdica i s'envii per correu a la bústia del DDD

Ja s'han solucionat els casos més clars i decidim no modificar els que apunten a un registre amb múltiples fitxers. Quan aquestes dues accions estiguin fetes podem tancar la tasca.

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #7

  • Temàtica prevista ha canviat de Accions de milllora de la qualitat a Viquipèdia

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #8

Tinc preparada una segona tongada, que a més normalitza les adreces http://ddd.uab.cat a https://ddd.uab.cat. No és, però, un canvi de tots els http a https. Ja li passaré al Àlex Hinojo.

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #9

  • Data de venciment ha canviat de 27-10-2017 a 20-12-2017

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #10

He refet gairebé del tot el sistema de normalització i ara executa les següents operacions:

  • Canvia http://ddd.uab.cat per https://ddd.uab.cat
  • Elimina el paràmetre de llengua (?ln=), en qualsevol posició de la url.
  • Elimina el punt o la barra quan són al final de la url.
  • Canvia l'extensió .txt per .pdf als documents (sí, n'hi havia alguns).
  • Quan la url del text complet forma part d'un registre amb un sol document, el canvia per l'adreça canònica (/record/) [Aquesta és la que ja feia].

He hagut de tocar una vintena d'adreces a la viquipèdia que que no es podien automatitzar i que no permetien fer la resta dels canvis automàticament.

Crec que puc deixar el fitxer a https://ddd.uab.cat/tmp/viquipedia/, i posar-ho perquè s'executi diàriament.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #11

Ja he avisat per correu a l'Àlex Hinojo a la seva nova adreça () de l'existència d'aquest fitxer de correccions.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #12

Estic pensant que hi ha altres tipus de correccions que podríem fer:

  • Verificar que les nostres adreces a la Viqupèdia efectivament funcionin.
  • Verificar les nostres adreces a les Wikipèdies en altres llengües. D'això en voldria fer alguna prova i parlar-ne amb l'Àlex Hinojo.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #13

  • Data de venciment ha canviat de 20-12-2017 a 22-02-2018

CA Actualitzat per Cristina Azorin fa quasi 8 anys Accions #14

En Ferran ha declarat un robot (uab_bot) a la wikipèdia catalana i anglesa. A la propera reunió de la Viquipèdia la Núria demanarà que la validin.
uab_bot https://ca.wikipedia.org/wiki/Usuari:Uab_bot fa una cerca especialitzada a la Viquipèdia de tots els enllaços del DDD que volem modificar. El llistat de les modificacions està a https://ddd.uab.cat/tmp/wikipedia/

CA Actualitzat per Cristina Azorin fa quasi 8 anys Accions #15

  • Data de venciment ha canviat de 22-02-2018 a 25-10-2018

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #16

L'Àlex ja ha estat avisat i espera un moviment del Ferran en els propers dies. Hi ha bona predisposició a ajudar-nos.

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #17

  • Prioritat ha canviat de Alta a Urgent

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #18

La part de programa del robot funciona perfectament. De fet, si m'identifico amb la meva contrasenya personal, fa correccions. Ara estic demanant ajuda al Toni Hermoso de la viquipèdia catalana pel tema de formalitzar l'usuari i autoritzar el robot.

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #19

Ja hem desencallat el tema de l'usuari i la contrasenya del robot (són i han de ser diferents que el meu personal, tot i que un compte va associat a l'altre), i de moment he fet algunes correccions automàtiques, mínimes, de proves:

https://ca.wikipedia.org/wiki/Especial:Contribucions/Uab_bot

Ara estic esperant que m'acabi d'aclarir les autoritzacions perquè ho pugui fer de manera més massiva.

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #20

Doncs si ho he entès bé ja he passat tots els filtres i el uab_bot ja forma part dels robots oficials de la viquipèdia catalana:

Podeu seguir les modificacions (normalitzacions) que fa via la seva pàgina de contribucions. De moment estic essent prudent, primer de 2 en 2, ara de 10 en 10, i aniré incrementant-ho amb prudència:

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #21

Em sembla que ja està. En les darreres hores el bot ha fet més de 1000 correccions d'adreces del DDD a la viquipèdia catalana. Ara mateix ja no queda cap adreça per corregir:

Entenc que el bot s'hauria d'executar automàticament amb una certa periodicitat, p. ex., un cop per setmana, però abans d'automatitzar-ho vull veure com evoluciona fent-ne una vigilància manual.

Entenc que les mateixes regles les podria aplicat als altres dos Invenios:

M'hi poso?

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #22

A hores d'ara l'Uab_bot porta, segons https://xtools.wmflabs.org/ec/ca.wikipedia.org/Uab_bot, 1405 correccions d'adreces.

Els canvis han estat exclusivament sobre la viquipèdia catalana i respecte a urls que apunten al DDD (majoritàriament), però també Traces i IFMuC. Consisteixen sobretot en passar d'http a https i simplificar-les (eliminar paràmetres innecessaris, tant el de llengua com paràmetres de cerca superflus). En el cas del DDD, també canvia a url permanent (/record/) les adreces que apuntaven a pdfs, sempre i quant aquest el registre només contingui un sol pdf (per exemple, no els hem canviat quan es referien a una pàgina d'un pdf de Mirador o el Butlletí del Centre Excursionista de Catalunya, per posar els mateixos exemples de sempre).

Les adreces que resten per fer (https://ddd.uab.cat/qualitat/fix_wikipedia_ca_links.tab) se'm compliquen per la codificació de les urls en codificació urlencoded (ex: Vall%C3%A8s per Vallès) i la recodificació del & per & segons com (ex: sc=1&amp ;ln=ca&amp ;sc=1 --sense els espais-- per sc=1&ln=ca;sc=1). Tot i que m'he llegit un munt de vegades l'estàndard (ex: https://en.wikipedia.org/wiki/Percent-encoding), diria que a la pròpia Wikipèdia no sempre ho tenen de la mateixa manera, perquè de vegades se'm corregeix automàticament i d'altres no.

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #23

  • Data de venciment ha canviat de 25-10-2018 a 20-12-2018
  • Prioritat ha canviat de Urgent a Normal

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #24

  • Estat ha canviat de En curs a Tancada

En els darrers dies he reordenat la lògica interna de les correccions, i ara en pot corregir uns quants que abans no era possible fer-ho. De fet, aquest era el tema pel qual jo em resistia a tancar la tasca. Com que ja ho tinc fet, sí que la tanco. El programa continuarà executant-se periòdicament.

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #25

  • Paraula clau s'ha suprimit (JR)
Accions

També disponible a: PDF Atom