Tasca #5853
tancatCapturar automàticament els vídeos 'youtube' entrats als DDD a efectes de preservació futura
Descripció
El Ferran prepararà a captura dels vídeos de Youtube que ara tenim enllaçats des del DDD a efectes de preservació.
Ara són 58: https://ddd.uab.cat/search?cc=videos&p=youtube
Tasques relacionades 3 (0 obertes — 3 tancades)
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Temàtica prevista s'ha establert a Preservació
CA Actualitzat per Cristina Azorin fa més de 5 anys
- S'ha afegit relacionat amb Tasca #4816: Manual per a la incorporació de la producció científica al DDD
CA Actualitzat per Cristina Azorin fa més de 5 anys
- S'ha afegit relacionat amb Tasca #6009: Creació formulari de vídeos per al PDI
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys
- Data de venciment s'ha establert a 01-07-2021
CA Actualitzat per Cristina Azorin fa més de 4 anys
Es tracta d'utilitzar una eina perfecte: https://youtube-dl.org/ Però com que dóna moltes possibilitats, també per extreure-hi les metadades vàries del vídeo a can Youtube, sé que en el seu moment vaig veure que cal entretenir-s'hi una estona per saber què volem i per què. Veuràs que d'options n'hi ha la tira: https://github.com/ytdl-org/youtube-dl/blob/master/README.md#options
Ens convé baixar-nos un sol format, o tots? Ens convé baixar-nos les miniatures, o no cal? Ens convé baixar-nos les metadades (-add-metadata) o les metadades de títol (--metadata-from-title)? Què contenen cadascuna d'elles?
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys
- Data de venciment ha canviat de 01-07-2021 a 01-12-2022
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
- Estat ha canviat de Creada a En curs
Després de repassar la documentació de youtube-dl (https://youtube-dl.org/), crec que en tenim prou baixant el vídeo amb la seva resolució més alta i amb el fitxer de metadades. Això vol dir utilitzar aquestes opcions:
$ youtube-dl --id --write-info-json --format best [youtube-urls]
El fitxer de metadades es baixa com amb l'extensió .info.json. D'aquestes metadades n'extrec algunes i les formatejo com altres fitxer .urls que baixem d'Internet (p. ex., els cartells polítics de Twitter), amb la informació següent:
- Url del fitxer (vídeo, en aquest cas)
- Url de la pàgina que allotja el fitxer (en aquest cas, canal del vídeo)
- Línia en blanc
- Títol del vídeo
- Data de pujada
- Durada
- Descripció
- Resta de les dades del fitxer .json però formatejades
Finalment, per coherència amb la resta dels fitxers del DDD i Volum-I, el fitxer .info.json li canvio l'extensió a .json.
Els primers vídeos capturats (de mostra) són aquests:
https://volum-i.uab.cat/videos/youtube/
Ja prepararé un script perquè ho faci automàticament per tots els vídeos que tinguem al DDD.
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
- S'ha afegit relacionat amb Tasca #5816: Aportacions tècniques sobre els vídeos al DDD
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Dels 250 vídeos de Youtube que tenim referenciats al DDD, ara ja n'he capturat 24 mentre estava fent proves d'automatitzar-lo. A partir d'ara en capturarà 4 cada dia, perquè he vist que Youtube segons com dona un HTTP Error 403: Forbidden, i crec que és més prudent fer-ho poc a poc:
https://volum-i.uab.cat/videos/youtube/
A part de fer tot el que diu a la nota 7, també associa el md5 del fitxer al número de registre. Aquesta informació encara no és pública, però forma part de la base de dades d'inventari de fitxers.
Tancaré la tasca quan vegi que la captura periòdica funciona bé.
CA Actualitzat per Cristina Azorin fa quasi 4 anys
Cornell amb problemes de preservació: https://twitter.com/elotroalex/status/1538163620386840578
CA Actualitzat per Cristina Azorin fa aproximadament 3 anys
- Estat ha canviat de En curs a Tancada
CA Actualitzat per Cristina Azorin fa aproximadament 3 anys
- Paraula clau s'ha suprimit (
NCR)