Tasca #3007
tancatCarregar les guies docents del curs 2014-15
Descripció
Ja tenim disponibles les primeres guies docents del curs 2014-15. Cal fer les adaptacions dels procediments i scripts per fer la càrrega automàticament.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
De moment acabo d'agafar els PDFs, generar les miniatures i els .info, i així podrem comprovar les dades i adaptar els programes.
http://ddd.uab.cat/pub/procur/2014-15/
El que tindrà més gràcia és lligar diferents PDFs en un sol registre.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- S'ha actualitzat Descripció (diferències)
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Estat ha canviat de Creada a En curs
Com cada any, aquest any les coses no han anat com tindrien que haver anat i tot s'ha complicat una mica.
Tot surt quan m'estava mirant la manera de penjar les guies en diferents idiomes sota un mateix registre bibliogràfic, quan, a hores d'ara, no les tinc totes. Com detectar-les? En principi, pel codi d'assignatura, no? Però aleshores és quan, comparant fitxers, me n'he adonat que la mateixa assignatura donada en titulacions diferents, genera el mateix fitxer.
He anat a preguntar als companys que em generen els PDFs, i m'han dit que sí, en general, una assignatura en diferents titulacions genera el mateix fitxer. Però hi ha excepcions (potser un 10%), en general concentrades a Lletres, degut a diferents canvis d'última hora. Aquestes exceptions també han provocat diferents circuits de generació de les guies.
Després de considerar diferents opcions, hem considerat que, aquest curs, és millor que la detecció la faci jo al DDD.
En aquesta tasca aniré detallant com resoldre aquest (i altres) casos.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Ja tinc preparat un sistema per detecció de PDFs amb el mateix contingut, és a dir, guies idèntiques, que es donen a diferents titulacions, de la mateixa assignatura.
Dit d'una altra manera: es tracta que conservar que si una mateixa assignatura té guies diferents per a diferents titulacions (cas minoritari), es conservin cadascun amb el nom original. Però si trobem que dues o més guies de la mateixa assignatura en titulacions diferents són idèntiques, el que faré serà unificar-les en una de sola.
Per exemple, la guia de l'assignatura 100122, en dues titulacions diferents, dóna dos md5 diferents (aquest md5 el calculo a partir del text sense formatejar del PDF, no del PDF mateix):
100122: {'cat': {'b1e7d7f0b06cf6f5b197350e92575fa2': ['g100122t2501919a2014-15iCAT'],
'f2545d473413aa594b90eb61db817a55': ['g100122t2500149a2014-15iCAT']}}
Però la 100218 és idèntica a un munt de titulacions:
100218: {'cat': {'0131198743c698745baf2543996eba51': ['g100218t2500239a2014-15iCAT',
'g100218t2500240a2014-15iCAT',
'g100218t2500243a2014-15iCAT',
'g100218t2500245a2014-15iCAT',
'g100218t2500246a2014-15iCAT',
'g100218t2500247a2014-15iCAT',
'g100218t2500248a2014-15iCAT',
'g100218t2500256a2014-15iCAT',
'g100218t2501002a2014-15iCAT']}}
En el primer cas, no farem res. En el segon, fusionaré totes les guies en una de sola amb el nom g100218a2014-15iCAT.
Per minimitzar moviments innecessaris, les guies que només es donen en una sola titulacio, les deixaré igual (no simplificaré el nom), perquè pot venir una segona o tercera guia més endavant que em podria obligar a desfer la feina feta. Són casos de l'estil:
100247: {'cat': {'b54a811720609aec7653ad6b0d406f52': ['g100247t2500245a2014-15iCAT']}}
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Data de venciment s'ha establert a 02-10-2014
- Paraula clau s'ha establert a JR
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Hi continuo treballant. És una mica complicat unificar la història dels PDFs que s'estan modificant cada dia amb les versions fusionades locals al DDD i amb els diferents idiomes...
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Segons els meus companys, continua havent-hi molta moguda a les guies. Aquesta nit, per exemple, s'han refet tots els PDFs.
Tinc una estratègia de com agrupar i fer el seguiment dels canvis, però, pel que veig, és més raonable fer-ho el setembre.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Paraula clau ha canviat de JR a JR teletreball
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Hi estic treballant prioritàriament. Espero poder fer una càrrega a finals d'aquesta setmana. Si repasseu les notes anteriors, veureu que aquest any ens ho han posat una mica més difícil ;-)
FJ Actualitzat per Ferran Jorba fa més de 11 anys
He fet una primera càrrega de 355 guies del curs 2014-15. Aquest primer conjunt és de guies comunes a més d'una titulació.
http://ddd.uab.cat/collection/procur
Aquesta primera càrrega no té (encara) en compte les guies multilingües. Me n'he adonat també que hi ha alguns problemes amb els diacrítics dels títols.
Aniré actualitzant la tasca a mesura que progressi.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
El fet que en aquesta primera càrrega no hagi tingut en compte el multilingüsme ha creat entrades repetides, concretament 16 duplicades i 31 triplicades. Són registres que haurien de tenir tanes 856 i tantes 520 i potser tantes 24X (?) o 830 (?) com llengües. Com que el número de traduccions pot augmentar d'un dia per l'altra, mentre els PDFs els van actualitzant dia sí i dia també, he arribat a la conclusió que l'única manera raonable de tenir-ho bé serà recarregant els registres cada cop, segurament cada dia.
Per localitzar els registres duplicats he creat una 035 amb el nom canònic del documents, que consisteix amb els camps g (assignatura) i a (any), p. ex:
FJ Actualitzat per Ferran Jorba fa més de 11 anys
He netejat els duplicats i he tornat a carretar els 278 registres, ara ja amb la versió multilingüe, si s'escau, ex:
http://ddd.uab.cat/collection/procur
http://ddd.uab.cat/record/119849
Ara m'hi poso amb els que només són d'una sola titulació.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Ja he carregat (o tornat a carregar, depèn del cas) 2.673 registres, que es corresponen a 2.836 pdf, ja n'hi ha 163 de multilingües.
Hi ha alguns aspectes dels registres no ben resolts, com els camps de llengua (041 i 546). En alguns casos la titulació queda repetida, cosa que corregiré immediatament.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Els PDFs es generen a partir de les 12 de la nit, i el seu procés acaba cap a les 5 de la matinda. Com que en el DDD també cal força estona, ja que diria que l'única manera de fer-ho amb garanties és tornar-los a carregar tots, jo faig un primer procés al migdia de l'endemà, dedicat exclussivament a baixar els nous PDFs i detectar relacions entre ells, i preparar els registres Marc21, però sense carregar-los. Això vol dir que aquest any anirem, com a molt sincronitzats, amb 24 hores de retard.
Encara no sé si aquesta any ho automatitzaré del tot, o fins a quin punt, o amb quina freqüència; prefereixo anar analitzant els resultats. Per exemple, d'ahir a avui no s'han afegit noves guies, i els canvis només han estat tipogràfics en 43 pdfs, sense canvis en els continguts ni la codificació, i prefereixo esperar a demà.
Mentrestant, ahir els vaig avisar que algunes titulacions semblen inconsistents amb l'assignatura, com una Estètica de la música impartida a Arqueologia (http://ddd.uab.cat/record/122400). Els meus companys em van dir que ho repassarien.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Aquesta matinada s'han carregat 3.170 registres, dels quals 249 eren nous i 2.921 ja existents.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Aquesta matinada s'han carregat 3.191 registres, dels quals 21 eren nous i 3.170 actualitzats.
Ahir em vaig reunir amb la persona responsable de la generació dels PDFs i em va confirmar la correcció d'algunes assignatures que estaven assignades a titulacions equivocades (majoritàriament a Geologia). També vam estar mirant els problemes amb alguns diacrítics, que surten amb ?, i vam confirmar que això també passa a la versió web que està a la web de la UAB:
Em va comentar també que avui hauria de ser el darrer dia que s'actualitzen guies (!). En principi era la setmana passada, i s'ha allargat una altra. Per part meva, aniré fent les descàrregues automatitzades i observar els resultats, perquè, al menys pel que fa a la versió multilingüe, ni molt menys estan totes en els 3 idiomes.
Pel que sembla, hi ha titulacions que continuen sense utilitzar aquest sistema de generació de guies.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Malgrat que em diguessin que ja no es carregaven noves guies, avui acabo de carregar 5 registres nous, 6 PDFs nous i 85 de modificats.
Continuaré vigilant el tema.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Avui hi ha hagut una guia nova (http://ddd.uab.cat/record/123319) i modificacions menors en els pdfs d'una dotzena més.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Estat ha canviat de En curs a Tancada
Confirmo que no ha quedat cap guia orfe. Totes han estat carregades.
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Paraula clau s'ha suprimit (
JR teletreball)