Projecte

General

Perfil

Accions

Tasca #5853

tancat
CA FJ

Capturar automàticament els vídeos 'youtube' entrats als DDD a efectes de preservació futura

Tasca #5853: Capturar automàticament els vídeos 'youtube' entrats als DDD a efectes de preservació futura

Afegit per Cristina Azorin fa més de 5 anys. Actualitzat fa aproximadament 3 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Suport a docència i recerca
Temàtica prevista:
Inici:
09-09-2020
Data de venciment:
01-12-2022
Paraula clau:

Descripció

El Ferran prepararà a captura dels vídeos de Youtube que ara tenim enllaçats des del DDD a efectes de preservació.

Ara són 58: https://ddd.uab.cat/search?cc=videos&p=youtube


Tasques relacionades 3 (0 obertes3 tancades)

relacionat amb Docència i recerca - Tasca #4816: Manual per a la incorporació de la producció científica al DDDTancadaCristina Azorin22-12-201722-05-2023Accions
relacionat amb DDD - Tasca #6009: Creació formulari de vídeos per al PDITancadaMarta Jordan11-11-202025-02-2021Accions
relacionat amb DDD - Tasca #5816: Aportacions tècniques sobre els vídeos al DDDTancadaFerran Jorba08-07-2020Accions

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #1

  • Temàtica prevista s'ha establert a Preservació

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #2

  • S'ha afegit relacionat amb Tasca #4816: Manual per a la incorporació de la producció científica al DDD

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #3

  • S'ha afegit relacionat amb Tasca #6009: Creació formulari de vídeos per al PDI

FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #4

  • Data de venciment s'ha establert a 01-07-2021

CA Actualitzat per Cristina Azorin fa més de 4 anys Accions #5

Es tracta d'utilitzar una eina perfecte: https://youtube-dl.org/ Però com que dóna moltes possibilitats, també per extreure-hi les metadades vàries del vídeo a can Youtube, sé que en el seu moment vaig veure que cal entretenir-s'hi una estona per saber què volem i per què. Veuràs que d'options n'hi ha la tira: https://github.com/ytdl-org/youtube-dl/blob/master/README.md#options

Ens convé baixar-nos un sol format, o tots? Ens convé baixar-nos les miniatures, o no cal? Ens convé baixar-nos les metadades (-add-metadata) o les metadades de títol (--metadata-from-title)? Què contenen cadascuna d'elles?

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #6

  • Data de venciment ha canviat de 01-07-2021 a 01-12-2022

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #7

  • Estat ha canviat de Creada a En curs

Després de repassar la documentació de youtube-dl (https://youtube-dl.org/), crec que en tenim prou baixant el vídeo amb la seva resolució més alta i amb el fitxer de metadades. Això vol dir utilitzar aquestes opcions:

$ youtube-dl --id --write-info-json --format best [youtube-urls]

El fitxer de metadades es baixa com amb l'extensió .info.json. D'aquestes metadades n'extrec algunes i les formatejo com altres fitxer .urls que baixem d'Internet (p. ex., els cartells polítics de Twitter), amb la informació següent:

  1. Url del fitxer (vídeo, en aquest cas)
  2. Url de la pàgina que allotja el fitxer (en aquest cas, canal del vídeo)
  3. Línia en blanc
  4. Títol del vídeo
  5. Data de pujada
  6. Durada
  7. Descripció
  8. Resta de les dades del fitxer .json però formatejades

Finalment, per coherència amb la resta dels fitxers del DDD i Volum-I, el fitxer .info.json li canvio l'extensió a .json.

Els primers vídeos capturats (de mostra) són aquests:

https://volum-i.uab.cat/videos/youtube/

Ja prepararé un script perquè ho faci automàticament per tots els vídeos que tinguem al DDD.

FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys Accions #8

  • S'ha afegit relacionat amb Tasca #5816: Aportacions tècniques sobre els vídeos al DDD

FJ Actualitzat per Ferran Jorba fa quasi 4 anys Accions #9

Dels 250 vídeos de Youtube que tenim referenciats al DDD, ara ja n'he capturat 24 mentre estava fent proves d'automatitzar-lo. A partir d'ara en capturarà 4 cada dia, perquè he vist que Youtube segons com dona un HTTP Error 403: Forbidden, i crec que és més prudent fer-ho poc a poc:

https://volum-i.uab.cat/videos/youtube/

A part de fer tot el que diu a la nota 7, també associa el md5 del fitxer al número de registre. Aquesta informació encara no és pública, però forma part de la base de dades d'inventari de fitxers.

Tancaré la tasca quan vegi que la captura periòdica funciona bé.

CA Actualitzat per Cristina Azorin fa quasi 4 anys Accions #10

Cornell amb problemes de preservació: https://twitter.com/elotroalex/status/1538163620386840578

CA Actualitzat per Cristina Azorin fa aproximadament 3 anys Accions #11

  • Estat ha canviat de En curs a Tancada

CA Actualitzat per Cristina Azorin fa aproximadament 3 anys Accions #12

  • Paraula clau s'ha suprimit (NCR)
Accions

També disponible a: PDF Atom