Cartells polítics al DDD: una política de continuïtat digital¶
Proposta d'en Ferran Jorba, amb el vist-i-plau de la Teresa Santos, la Cristina Azorín i la Núria Casaldàliga.
Desembre 2014-Gener 2015.
Vegeu també: OrganitzacionsPolitiquesCatalanes i EtiquetarCartellsPolitics.
Els cartells recollits automàticament de Twitter estan a http://volum-i.uab.cat/carpol/cartellsdigitals/automatic/twitter/cartells/
Resum executiu¶
Al DDD hi ha una important col·lecció de cartells polítics contemporanis, especialment catalans. Aquests cartells provenen de diferents col·leccions d'originals en paper i han estat digitalitzats per fer-los accessibles a Internet. Aquesta col·lecció s'hauria de continuar, però ja no a partir de la digitalització de cartells en paper, sinó recollint els originals digitals.
Com que avui dia pràcticament tots els cartells es produeixem mitjançant procediments digitals i, al menys des del 2010, per posar una data, molts d'ells es troben lliurement accessibles a Internet publicades per les mateixes organitzacions responsables, es tracta d'establir procediments i eines per, de la manera més automàtica possible, recollir, identificar, emmagatzemar, post-processar i precatalogar els cartells.
La importància i urgència d'aquest projecte és més rellevant degut a la efervescècia política que Catalunya està vivint en els darrers anys, motivada pels moviments del dret a decidir, primer, i la independència més endavant. Els documents nascuts digitals tendeixen a ser més efímers, i per tant és important recollir-los a temps, preferiblement en les hores o dies posteriors a la seva publicació. En aquest sentit, és un cas de preservació dels documents anomenats «nascuts digitals».
Des de l'estiu del 2014 hem estat fent diferents proves de captura, detecció i processament de cartells polítics (incloent les campanyes de la V i del 9N), i amb aquest material ja recollit n'hem tret algunes conclusions per presentar-ho com a projecte i objectiu del Servei de Biblioteques.
El projecte consisteix en dues parts principals, fortament interllaçades: la bibliotecària, entre altres tasques, hauria d'identificar els actors polítics i els seus recursos a Internet (webs, RSS, perfils de Twitter, etc), gestionar els permisos, les polítiques catalogràfiques, les campanyes, etc. La informàtica consisteix en recollir, detectar, organitzar, agrupar i preparar els cartells de la manera més completa i automàtica possible.
Procediments específics¶
Per posar en marxa aquest projecte caldrà detallar i consensuar moltes idees, procediments i polítiques que ara mateix només estan embastades i en estat de proves o avaluació. De fet, segur que haurem d'aprendre de les nostres experiències, encerts i errors, i possiblement lliçons inesperades. En tot cas, és molt important és donar continuïtat a la nostra col·lecció de cartells digitals, i el que és obvi és que no podem continuar fent-ho digitalitzant material en paper, de manera que haurem d'aprendre-ho entre tots.
A continuació, doncs, enumerem alguns dels punts que cal treballar, concretar i consensuar. Ni hi són tots, ni tots estan desenvolupats amb el mateix grau de detall.
Recollida automatitzada de cartells¶
A Internet hi ha diferents plataformes on les organitzacions polítiques publiquen els seu cartells: les pròpies webs, Twitter, Facebook, Instagram, Pinterest i altres de menors.
Inicialment les plataformes de recollida dels cartells seran Twitter i les webs. Facebook queda inicialment descartat per motius tècnics: les pàgines de Facebook són bàsicament scripts (en Javascript) que s'executen en el navegador de l'usuari, i ara per ara és molt difícil automatitzar les captures. Tenim alguna prova de Pinterest, però no n'hem fet el seguiment exhaustiu. La plataforma més senzilla de tractar i que, a més, té un enorme protagonisme en l'entorn polític, és Twitter. Les publicacions (piulales o twits) a Twitter consisteixen en un text breu i, opcionalment, una o més imatges. Respecte a aquesta simplicitat, les webs són enormement més complexes de tractar, on les pàgines poden ser llarges, amb multitud d'imatges, fulles d'estil, icones identificatives, etc.
La proposta de procediment és el següent:
Per a cada organització política s'identificarà el perfil o perfils de Twitter, i el canal RSS de la seva web, per obtenir-ne les noves publicacions. Les adreces es podran fer des d'una pàgina wiki del gestor de projectes del Servei de Biblioteques, perquè sigui fàcil per tothom revisar i col·laborar-hi. En el cas de Twitter també val la pena anotar els hashtags que puguin agrupar missatges i cartells rellevants pel nostre fons.
Per exemple:
| Organització | RSS (software) | |
| Assemblea Nacional Catalana | @assemblea | http://assemblea.cat/rss.xml (Drupal) |
| Badalona decideix | http://badalonadecideix.blogspot.com/feeds/posts/default (Blogger) | |
| Badalona per la independència | @BDNxIND | http://bdnxind.wordpress.com/feed/ (Wordpress) |
| Can Vies | @SomCanVies | http://canvies.barrisants.org/feed/ (Wordpress) |
| Garrotxa Llibertaria | @allgarrotxa | http://www.garrotxallibertaria.org/feed/ (Wordpress) |
| Òmnium cultural | @omnium | http://www.omnium.cat/rss.xml (Drupal) |
| Societat Civil Catalana | @Societatcc | http://societatcivilcatalana.cat/ca/feed (Wordpress) |
| Súmate | @sumate_asoc | http://www.sumate.cat/feeds/posts/default (Blogger) |
La llista complet dels canals RSS de les webs que ara mateix es recolleixen automàticament estan a la part dreta d'aquesta pàgina:
http://ddd-test.uab.cat:2000/pub/orgpolcat/
Amb una periodicitat estalerta (per exemple, Twitter, cada mitja hora, i les webs, dos cops al dia) es capturen les pàgines designades. Al gener del 2015 ja tenim uns 60 perfils i 120 hashtags de Twitter, i quasi 590 adreces RSS de les webs de moltes de les organitzacions polítiques catalanes, i s'està fent les captures automàticament.
Permisos¶
Per publicar aquest material al DDD caldrà disposar dels permisos de les organitzacions que publiquen els cartells. Caldrà preparar el document corresponent. Hi ha organitzacions més grans i més fàcils de contactar, i que segurament hi posaran facilitats, i d'altres que costarà fins i tot que contestin. En tot cas, és important que en la recol·lecció dels cartells sigui possible identificar-ne l'organització, i el canal de contacte. En el cas de Twitter, per exemple, es pot fer servir el propi sistema intern de missatges per contactar-hi.
Detecció automàtica de cartells¶
De les pàgines o piulades se n'aïllen les imatges, i per identificar els cartells dins de totes les imatges es pot fer perfectament per OCR. Ja que els cartells han de tenir algun text, això els identificarà de la resta d'imatges, com fotos. Si passant-hi un software d'OCR el resultat és d'un número suficient (a determinar) de paraules, haurem trobat un possible cartell.
Material duplicat¶
Amb el material que hem anat recollint fins ara, hi ha cartells duplicats. Hem d'establir quina és la còpia original, sobretot quan és important per establir-ne l'autoria, si no queda clar a partir del propi text del cartell.
Metadades¶
Els cartells s'acompanyaran de les següents dades: url de la imatge, url de la pàgina (o piulada) que acompanya la imatge, i text (o piulada) de la pàgina.
Organització del material recollit¶
Les pàgines i piulades es reorganitzaran en primer lloc d'una manera cronològica (any i mes), i després per organitzacions. Prioritzar la part cronològica té unes quanges avantatges: identificar en el temps el material, agrupar el material de diferents organitzacions en el temps, trobar tot el material disponible d'una campanya, poder tancar recol·leccions, etc.
Un esborrany de com pot quedar la captura dels cartells publicats a Twitter, sense eliminar-hi duplicats i amb la detecció automàtica de cartells encara millorable, està accessible, només des del domini UAB, a:
http://volum-i.uab.cat/carpol/cartellsdigitals/automatic/twitter/cartells/
Tria i selecció manual de cartells¶
El procediment automatitzat de detecció de cartells no és perfecte, tot i que creiem que val la pena fer diferents proves amb diferents paràmetres per intentar-la millorar. Però és cert que caldrà habilitar un sistema per triar, confirmar o eliminar cartells d'una manera manual.
Identificació de campanyes polítiques¶
Ja que els cartells polítics estan molt lligats a campanyes (eleccions, manifestacions, protestes, etc), aquesta agrupació temporal hauria de facilitar identificació automàtica de les campanyes (ex: eleccions europees de tal mes i tal any, municipals de tal mes i tal any, referèndum o consultes, etc).
Agrupació de cartells en registres¶
El nombre de cartells pot ser molt gran. Per exemple, només comptant els recollits a Twitter en els darrers tres mesos del 2014 (quan la recollida de Twitter ja estava relativament completa), en surten aproximadament uns 250 possibles cartells (pendents de confirmació) a l'octubre, uns 600 de novembre i uns el 250 el desembre. Són xifres encara provisionals, però indiquen que la política catalogràfia segurament haurà de ser diferent que fins ara, i probablement caldria agrupar per campanya i organtzació política (per exemple, agrupar tots els cartells del 9N per cada partit o organització, tots els de cada campanya muncipal també per partit, etc.).
Precatalogació¶
Amb la identificació de les organitzacions i les campanyes, seria molt útil crear automàticament els noms de directoris normalitzats, i la precatalogació del material en registres. Aquests registres podrien entrar en un cicle de revisió i aprovació com ja estem fent en altres materials recollits automàticament al DDD.
La proposta que tinc al cap per agilitzar aquesta precatalogació consistira en etiquetar els cartells. Aquestes etiquetes, si contenen prou informació, segurament servirien per agrupar tots els cartells relacionats en en un sol registre, i crear un registre bibliogràfic mínim perquè només calgui completar-lo.
Les etiquetes podrien ser com les que fem servir per als noms de fitxers i directoris al DDD. Per exemple, els de la consulta del 9N de l'Assemblea serien consulta_a2014m11d9@assemblea, els de eleccions municipals del 2015 de la CUP, municipals_a2015m5d24@cup. Un prototipus no funcional encara de com podria ser la pantalla per etiquetar serien, per exemple:
- http://volum-i.uab.cat/carpol/cartellsdigitals/automatic/twitter/cartells/2014/11/@assemblea/etiquetes.html
- http://volum-i.uab.cat/carpol/cartellsdigitals/automatic/twitter/cartells/2014/11/@Societatcc/etiquetes.html.
En el seu moment vaig fer proves de recollides manuals (que vaig comprovar que difícilment surten a compte) i vaig crear etiquetes estructurades d'aquesta manera, i quedarien més o menys així:
Actualitzat per Ferran Jorba fa quasi 10 anys · 41 revisions