Tasca #4569
tancatNormalitzar les referències de la Viquipèdia al DDD
Descripció
Generar un llistat de correspondència entre els pdf referenciats directament a la Viquipèdia i els registres del DDD (amb la URL recomanada).
S'hauria d'executar periòdicament.
Fitxers
CA Actualitzat per Cristina Azorin fa quasi 9 anys
- S'ha afegit relacionat amb Tasca #4567: Tasques relacionades a la presència del DDD a la Viquipèdia
FJ Actualitzat per Ferran Jorba fa quasi 9 anys
- S'ha afegit Fitxer correccio_enllacos_ddd.csv correccio_enllacos_ddd.csv
- Estat ha canviat de Creada a En curs
Ja està en marxa. Com passa de vegades, en el moment de preparar el fitxer d'equivalències, van sortir algunes sorpreses al DDD, que hem hagut de tenir en compte:
- Registres al DDD amb la mateixa 856.
- URLs de la viquipèdia que apunten a un sol document d'un registre al DDD que en té molts.
De moment ja he passat un fitxer amb 75 correccions, que servirà una mica de banc de proves, i l'adjunto a la tasca perquè sigui fàcil verificar-ho. D'aquí en sortiran altres tasques, amb exemples dels casos que he esmentat a dalt.
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Prioritat ha canviat de Normal a Alta
FJ Actualitzat per Ferran Jorba fa més de 8 anys
- S'ha afegit Fitxer correccio_enllacos_ddd.csv correccio_enllacos_ddd.csv
Ja he passat la segona part de les correccions trivials, 101 correccions d'adreces a registres que només tenen un sol document (pdf o jpg). L'adjunto aquí també.
FJ Actualitzat per Ferran Jorba fa més de 8 anys
L'Àlex Hinojo de la Viquipèdia catalana ens acaba de confirmar que ja han fet tots els canvis que ens els hi hem enviat fins ara.
Ara nosaltres haurem de pensar com creiem que és millor resoldre els altres casos, és a dir, quan un article es refereix a un document (p. ex., un pdf) que forma part d'un registre que té més d'un document associat i, per tant, la seva url no té tantes garanties de ser permanent.
Segurament primer farem una mica de números.
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Data de venciment ha canviat de 28-07-2017 a 27-10-2017
Ara cal fer:
- modificar les adreces de http a https
- fer que el llistat es generi de manera periòdica i s'envii per correu a la bústia del DDD
Ja s'han solucionat els casos més clars i decidim no modificar els que apunten a un registre amb múltiples fitxers. Quan aquestes dues accions estiguin fetes podem tancar la tasca.
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Temàtica prevista ha canviat de Accions de milllora de la qualitat a Viquipèdia
FJ Actualitzat per Ferran Jorba fa més de 8 anys
Tinc preparada una segona tongada, que a més normalitza les adreces http://ddd.uab.cat a https://ddd.uab.cat. No és, però, un canvi de tots els http a https. Ja li passaré al Àlex Hinojo.
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Data de venciment ha canviat de 27-10-2017 a 20-12-2017
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
He refet gairebé del tot el sistema de normalització i ara executa les següents operacions:
- Canvia http://ddd.uab.cat per https://ddd.uab.cat
- Elimina el paràmetre de llengua (?ln=), en qualsevol posició de la url.
- Elimina el punt o la barra quan són al final de la url.
- Canvia l'extensió .txt per .pdf als documents (sí, n'hi havia alguns).
- Quan la url del text complet forma part d'un registre amb un sol document, el canvia per l'adreça canònica (/record/) [Aquesta és la que ja feia].
He hagut de tocar una vintena d'adreces a la viquipèdia que que no es podien automatitzar i que no permetien fer la resta dels canvis automàticament.
Crec que puc deixar el fitxer a https://ddd.uab.cat/tmp/viquipedia/, i posar-ho perquè s'executi diàriament.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Ja he avisat per correu a l'Àlex Hinojo a la seva nova adreça (alex@alexhinojo.cat) de l'existència d'aquest fitxer de correccions.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Estic pensant que hi ha altres tipus de correccions que podríem fer:
- Verificar que les nostres adreces a la Viqupèdia efectivament funcionin.
- Verificar les nostres adreces a les Wikipèdies en altres llengües. D'això en voldria fer alguna prova i parlar-ne amb l'Àlex Hinojo.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- Data de venciment ha canviat de 20-12-2017 a 22-02-2018
CA Actualitzat per Cristina Azorin fa quasi 8 anys
En Ferran ha declarat un robot (uab_bot) a la wikipèdia catalana i anglesa. A la propera reunió de la Viquipèdia la Núria demanarà que la validin.
uab_bot https://ca.wikipedia.org/wiki/Usuari:Uab_bot fa una cerca especialitzada a la Viquipèdia de tots els enllaços del DDD que volem modificar. El llistat de les modificacions està a https://ddd.uab.cat/tmp/wikipedia/
CA Actualitzat per Cristina Azorin fa quasi 8 anys
- Data de venciment ha canviat de 22-02-2018 a 25-10-2018
CA Actualitzat per Cristina Azorin fa més de 7 anys
L'Àlex ja ha estat avisat i espera un moviment del Ferran en els propers dies. Hi ha bona predisposició a ajudar-nos.
CA Actualitzat per Cristina Azorin fa més de 7 anys
- Prioritat ha canviat de Alta a Urgent
FJ Actualitzat per Ferran Jorba fa més de 7 anys
La part de programa del robot funciona perfectament. De fet, si m'identifico amb la meva contrasenya personal, fa correccions. Ara estic demanant ajuda al Toni Hermoso de la viquipèdia catalana pel tema de formalitzar l'usuari i autoritzar el robot.
FJ Actualitzat per Ferran Jorba fa més de 7 anys
Ja hem desencallat el tema de l'usuari i la contrasenya del robot (són i han de ser diferents que el meu personal, tot i que un compte va associat a l'altre), i de moment he fet algunes correccions automàtiques, mínimes, de proves:
https://ca.wikipedia.org/wiki/Especial:Contribucions/Uab_bot
Ara estic esperant que m'acabi d'aclarir les autoritzacions perquè ho pugui fer de manera més massiva.
FJ Actualitzat per Ferran Jorba fa més de 7 anys
Doncs si ho he entès bé ja he passat tots els filtres i el uab_bot ja forma part dels robots oficials de la viquipèdia catalana:
- https://ca.wikipedia.org/wiki/Usuari:Uab_bot
- https://ca.wikipedia.org/wiki/Categoria:Bots_de_la_Viquip%C3%A8dia
- https://ca.wikipedia.org/wiki/Especial:Drets_dels_grups_d%27usuaris#bot
- https://ca.wikipedia.org/w/index.php?title=Especial:Usuaris&group=bot
- https://ca.wikipedia.org/wiki/Viquip%C3%A8dia:Petici%C3%B3_de_marca_de_bot
Podeu seguir les modificacions (normalitzacions) que fa via la seva pàgina de contribucions. De moment estic essent prudent, primer de 2 en 2, ara de 10 en 10, i aniré incrementant-ho amb prudència:
FJ Actualitzat per Ferran Jorba fa més de 7 anys
Em sembla que ja està. En les darreres hores el bot ha fet més de 1000 correccions d'adreces del DDD a la viquipèdia catalana. Ara mateix ja no queda cap adreça per corregir:
- https://ddd.uab.cat/tmp/viquipedia/
- https://ca.wikipedia.org/wiki/Especial:Contribucions/Uab_bot
- https://xtools.wmflabs.org/ec/ca.wikipedia.org/Uab_bot
Entenc que el bot s'hauria d'executar automàticament amb una certa periodicitat, p. ex., un cop per setmana, però abans d'automatitzar-ho vull veure com evoluciona fent-ne una vigilància manual.
Entenc que les mateixes regles les podria aplicat als altres dos Invenios:
- https://ca.wikipedia.org/w/index.php?title=Especial:Enllaços_web&target=ifmuc.uab.cat
- https://ca.wikipedia.org/w/index.php?title=Especial:Enllaços_web&target=traces.uab.cat
M'hi poso?
FJ Actualitzat per Ferran Jorba fa més de 7 anys
A hores d'ara l'Uab_bot porta, segons https://xtools.wmflabs.org/ec/ca.wikipedia.org/Uab_bot, 1405 correccions d'adreces.
Els canvis han estat exclusivament sobre la viquipèdia catalana i respecte a urls que apunten al DDD (majoritàriament), però també Traces i IFMuC. Consisteixen sobretot en passar d'http a https i simplificar-les (eliminar paràmetres innecessaris, tant el de llengua com paràmetres de cerca superflus). En el cas del DDD, també canvia a url permanent (/record/) les adreces que apuntaven a pdfs, sempre i quant aquest el registre només contingui un sol pdf (per exemple, no els hem canviat quan es referien a una pàgina d'un pdf de Mirador o el Butlletí del Centre Excursionista de Catalunya, per posar els mateixos exemples de sempre).
Les adreces que resten per fer (https://ddd.uab.cat/qualitat/fix_wikipedia_ca_links.tab) se'm compliquen per la codificació de les urls en codificació urlencoded (ex: Vall%C3%A8s per Vallès) i la recodificació del & per & segons com (ex: sc=1& ;ln=ca& ;sc=1 --sense els espais-- per sc=1&ln=ca;sc=1). Tot i que m'he llegit un munt de vegades l'estàndard (ex: https://en.wikipedia.org/wiki/Percent-encoding), diria que a la pròpia Wikipèdia no sempre ho tenen de la mateixa manera, perquè de vegades se'm corregeix automàticament i d'altres no.
CA Actualitzat per Cristina Azorin fa més de 7 anys
- Data de venciment ha canviat de 25-10-2018 a 20-12-2018
- Prioritat ha canviat de Urgent a Normal
FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys
- Estat ha canviat de En curs a Tancada
En els darrers dies he reordenat la lògica interna de les correccions, i ara en pot corregir uns quants que abans no era possible fer-ho. De fet, aquest era el tema pel qual jo em resistia a tancar la tasca. Com que ja ho tinc fet, sí que la tanco. El programa continuarà executant-se periòdicament.
CA Actualitzat per Cristina Azorin fa aproximadament 7 anys
- Paraula clau s'ha suprimit (
JR)