Tasca #5937
tancatTraspàs de les dades de la Memòria UAb cap al DDD (neteja de les pàgines web velles)
Descripció
NETEJA SITES VELLS DE DADES I DE MEMÒRIA
La idea d’aquesta revisió que he fet, és que no es perdi cap informació, sinó que tot estigui ok al DDD abans d’eliminar res i que no tinguem webs velles sense motiu. Hi ha el perill, precisament, de que si es queden només a Oracle algun dia ja no siguin consultables (degut a l’antiguitat de la plantilla).
Registre del DDD: https://ddd.uab.cat/record/30
CA Actualitzat per Cristina Azorin fa més de 5 anys
Carles H deia: cal que el DDD disposi de la integritat de la informació (veiem que, per exemple, en els tres darrers cursos només s’ha fet la captura en pdf, i s’ha afegit l’arxiu excel, de l’apartat de dades bàsiques del web de dades).
Ara ja està tot codificat en UTF8.
Les memòries estan totes, el que caldria és capturar (per primer cop o substituir el que hi ha) l'apartat de les dades. Són pàgines web però també hi ha excels al final de les xifres que surten a la web. Els darrers anys hi ha un excel penjat al DDD però no té tota a informació. En alguns casos hi ha un csv que només agafa la primera pàgina i no hi ha la resta de dades ni els altres excels que sí que estan a la pàgina.
Pàgina amb tota la informació: https://www.uab.cat/web/coneix-la-uab/la-uab/memoria-del-curs-academic-1345662224743.html
Els cursos que no surten en aquesta relació és perquè ja estan bé.
Curs 2009-2010 ho enviarà la Mercè directament, no es pot accedir (FTP?)
Curs 2011-2012 https://www.uab.cat/web/dades-de-la-uab-2011-2012-1345644387441.html
Curs 2012-2013 (tornar a capturar) https://www.uab.cat/web/www.uab.es/servlet/Satellite/dades-de-la-uab-2012-2013-1345656891905.html
Curs 2013-2014 (tornar a capturar) https://www.uab.cat/web/memoria-1345672955150.html
Curs 2014-2015 (les pàgines estan ben capturades però els excel estan enllaçats a la web original) https://www.uab.cat/web/presentacio-1345688826304.html
Curs 2015-2016 (lletres que surten malament (UTF8?) i excels sense descarregar al DDD) https://www.uab.cat/web/dades-basiques-1345707458699.html
Curs 2016-2017 (s'han de treure el pdf i el csv del DDD i fer la captura web ben feta) https://www.uab.cat/web/dades-basiques-1345732621935.html
Curs 2017-2018 (s'han de treure el pdf i el csv del DDD i fer la captura web ben feta) https://www.uab.cat/web/dades-basiques-1345766440905.html
Curs 2018-2019 (s'han de treure el pdf i el csv del DDD i fer la captura web ben feta) https://www.uab.cat/web/dades-basiques-1345793304726.html
Curs 2019-2020 (capturar per primera vegada) https://www.uab.cat/web/memoria-de-curs-2019-2020-1345813569096.html
Reclamo al carles el pdf de la memòria 2019-2020 que no surt al web.
FJ Actualitzat per Ferran Jorba fa més de 5 anys
- Estat ha canviat de Creada a En curs
A veure si ho he fet bé. Basant-me amb el PageLinks i una eina equivalent que havia fet per a automatitzar la capturar dels blogs (#5757), ara ho tinc força millor. Una altra cosa és que el web de la UAB és una [...] i que els fitxers Excel i Word els pengen sense extensió i, per tant, a la captura no s'obre l'aplicació que toca.
He capturat aquestes pàgines, amb els seus documents adjunts:
- https://ddd.uab.cat/pub/infanu/30/daduab_a2011-12/daduab_a2011-12.html
- https://ddd.uab.cat/pub/infanu/30/daduab_a2012-13/daduab_a2012-13.html
- https://ddd.uab.cat/pub/infanu/30/daduab_a2013-14/daduab_a2013-14.html
- https://ddd.uab.cat/pub/infanu/30/daduab_a2014-15/daduab_a2014-15.html
- https://ddd.uab.cat/pub/infanu/30/daduab_a2015-16/daduab_a2015-16.html
- https://ddd.uab.cat/pub/infanu/30/daduab_a2016-17/daduab_a2016-17.html
- https://ddd.uab.cat/pub/infanu/30/daduab_a2017-18/daduab_a2017-18.html
- https://ddd.uab.cat/pub/infanu/30/daduab_a2018-19/daduab_a2018-19.html
- https://ddd.uab.cat/pub/infanu/30/daduab_a2019-20/daduab_a2019-20.html
CA Actualitzat per Cristina Azorin fa més de 5 anys
Em sembla que hi ha un nivell que s'ha quedat fora... A més del menú dret hi ha un menú a l'esquerra, per exemple, a
https://ddd.uab.cat/pub/infanu/30/daduab_a2011-12/vinculacio-entre-centres-i-departaments-1345644396199.html
si enllaces al quadre del final (que seria el menú dret) l'enllaç ja no és DDD https://www.uab.cat/web/docencia/vinculacio-entre-centres-i-departaments/distribucio-de-la-docencia-entre-centres-i-departaments-pla-docent-de-2011-2012-1345644832403.html
Un altre exemple a https://ddd.uab.cat/pub/infanu/30/daduab_a2013-14/financament-de-la-recerca-1345672985001.html que enllaça a https://www.uab.cat/web/recerca-i-transferencia-de-tecnologia-i-de-coneixements/financament-de-la-recerca/financament-de-la-investigacio-per-grans-capitols-1345672985017.html
però no se si té gaire importància.
Després hi ha anys que ja estan bé, he comprovat, per exemple, el 19-20
També falten per recollir (que no tenim res al registre del DDD), les xifres del 2009-10, que estan a https://www.uab.cat/xifres_documents09/tot/cat/a.htm però que també ens va passar la Mercè per FTP i estaven en un directori que em vas dir que podies accedir, ho vam parlar pel teams
[23/10 11:10] Cristina Azorín
La Mercè Pi deia: Si no recordo malament, vaig dir-te que t’enviava la carpeta de les pàgines velles de xifres que tenim al servidor, pujat per ftp. Només et faltava curs 2009-2010 però et passo link a la carpeta Onedrive perquè t’ho puguis descarregar tot:
[23/10 11:10] Cristina Azorín
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Cristina Azorin va escriure:
Em sembla que hi ha un nivell que s'ha quedat fora... A més del menú dret hi ha un menú a l'esquerra, per exemple, a
https://ddd.uab.cat/pub/infanu/30/daduab_a2011-12/vinculacio-entre-centres-i-departaments-1345644396199.html
si enllaces al quadre del final (que seria el menú dret) l'enllaç ja no és DDD https://www.uab.cat/web/docencia/vinculacio-entre-centres-i-departaments/distribucio-de-la-docencia-entre-centres-i-departaments-pla-docent-de-2011-2012-1345644832403.html
Gràcies, aquest ja l'he incorporat.
Un altre exemple a https://ddd.uab.cat/pub/infanu/30/daduab_a2013-14/financament-de-la-recerca-1345672985001.html que enllaça a https://www.uab.cat/web/recerca-i-transferencia-de-tecnologia-i-de-coneixements/financament-de-la-recerca/financament-de-la-investigacio-per-grans-capitols-1345672985017.html
Ara també hi és.
Em temo que fins que no es repassi manualment, no és possible de veure què hi falta. L'estructura de les urls de la web de la uab no ajuda gens. Això sí, ara mateix em resulta senzill afegir noves pàgines, de manera que si en veus o en veieu, m'ho apunteu aquí i ho corregeixo.
Cristina, hi he posat aquest prefix daduab_aXXXX per no matxacar l'altre, però el puc canviar per qualsevol altre, o fins i tot substituir-lo, i així no caldrà modificar el registre i els hipotètics enllaços externs poden continuar funcionant.
Després contesto la resta d'observacions.
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Cristina Azorin va escriure:
[...]
També falten per recollir (que no tenim res al registre del DDD), les xifres del 2009-10, que estan a https://www.uab.cat/xifres_documents09/tot/cat/a.htm però que també ens va passar la Mercè per FTP i estaven en un directori que em vas dir que podies accedir, ho vam parlar pel teams
Sorprenentment, desempaquetant el zip i ajustant els noms, diria que el 2009-10 s'ha pogut recuperar bé!
https://ddd.uab.cat/pub/infanu/30/daduab_a2009-10/daduab_a2009-10.html
CA Actualitzat per Cristina Azorin fa més de 5 anys
- S'ha afegit relacionat amb Tasca #5757: Preparar l'automatització de la captura de blogs
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Estat ha canviat de En curs a Tancada
- Prioritat ha canviat de Alta a Normal
Ja hem deixat tot el registre correcte https://ddd.uab.cat/record/30
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Paraula clau s'ha suprimit (
NCR)