Tasca #5757
tancatPreparar l'automatització de la captura de blogs
Afegit per Ferran Jorba fa quasi 6 anys. Actualitzat fa aproximadament 3 anys.
Descripció
Val la pena tenir un procés per automatitzar la captura, si es dóna el cas, de blogs, concretament, els de la UAB.
Malgrat tots els seus inconvenients, probablement el format més perdurable i funcional és el pdf. Donat que el sistema de capturar pàgines en pdf ja el tenim (tasca #4970), aquesta tasca només tracta d'automatitzar-ne la tasca i veure quin altre tractament automàtic se'n pot fer (ex: extreure'n la data, el títol, etc), per decidir quin tipus de registre convé en cada cas: en format de butlletí, o d'articles en una revista, etc.
Tasques relacionades 3 (0 obertes — 3 tancades)
FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #1
- S'ha afegit relacionat amb Tasca #4970: Preparar una pàgina des d'on es puguin generar pdf a partir de pàgines html
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #2
- Estat ha canviat de Creada a En curs
Ja he fet un procediment pràcticament automàtic que funciona, de moment, pels blogs de la uab. N'he agafat un parell de mostra:
https://volum-i.uab.cat/blogs.uab.cat/
El procediment és el següent:
- A partir de l'adreça del blog, n'obtenim la url del rss. Per exemple, del https://blogs.uab.cat/comunicacio/, la url dels rss és https://blogs.uab.cat/comunicacio/feed/
- En WordPress, al menys, es poden anar passant pàgines del rss, i ho fem fins que ja no hi ha cap entrada: https://blogs.uab.cat/comunicacio/feed/?paged=1, https://blogs.uab.cat/comunicacio/feed/?paged=2, https://blogs.uab.cat/comunicacio/feed/?paged=3, etc.
- A partir dels fitxers rss, obtenim les adreces de totes les pàgines.
- Cada pàgina la capturem en l'html original i en pdf (tasca #4970).
Ara mateix, el programa no sap actualtizar les noves entrades, ni aprofita prou tota la informació de les entrades rss per extreure'n el títol, l'autor i la data, tot i que és obvi. Però de moment, la captura de totes les entrades es pot fer amb un esforç mínim.
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #3
Falta també recodificar els punts volats com a guionets, perquè sembla ser l'únic caràcter que no queda normalitzat, i fa que les adreces capturades no siguin clicables.
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #4
- Assignat a ha canviat de Ferran Jorba a Olga Cano
Cal afegir l’adreça URL de cada un dels blogs del Servei de Biblioteques. Fem la petició a l'Olga Cano.
OC Actualitzat per Olga Cano fa més de 5 anys Accions #5
Només he trobat les URL actives dels següents blogs, alguns encara en funcionament però la majoria ja no s'actualitzen:
- Blog de Comunicació: https://blogs.uab.cat/comunicacio/
- Medibloc (Biblioteca de Medicina): https://blogs.uab.cat/medibloc/
- Notícies UE (CDE): https://blogs.uab.cat/cdeuabinfo/
- BCT al dia: https://blogs.uab.cat/bctot/
- BCTOT Estudiants: https://blogs.uab.cat/bctotestudiants/
- BCTOT PDI: https://blogs.uab.cat/bctotpdi/
- Biblioteca Informacions: https://blogs.uab.cat/bibliotecainformacions/
La resta de blogs, ja no existeixen i les URL han estat eliminades:
bhgeografia
bctotciencies
busempresarials
bhumanitats
bcsdret
bcspolitiques
bcseconomia
bhantropologia
bhart
bhasiaoriental
bheducacio
bhfilologia
bhfilosofia
bhhistoria
bhmusica
bhpsicologia
bhgtraduccio
cuidabloc
GESTIÓ AERONÀUTICA
MEDICINA I SANITAT ANIMALS
AGRICULTURA I PRODUCCIONS ANIMALS
ALIMENTS
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #6
Gràcies, Olga, de moment començaré amb les que m'has passat.
Pel que fa a les eliminades, ho han estat amb el vist-i-plau de les biblioteques corresponents? Ho dic per si cal demanar de restaurar-les perquè així les puguem capturar...
OC Actualitzat per Olga Cano fa més de 5 anys Accions #7
Les que estan eliminades ho han fet les biblioteques mateixes a blogs.uab.cat (ja no existeixen a la plataforma), amb el compte d'administradores que s'havien creat a Wordpress. Dubto que es puguin recuperar, tu ho saps Ferran? Pregunto a l'APSI?
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #8
Per mi no cal, gràcies. És que jo tenia el dubte de si va ser una decisió voluntària i s'ho van trobar fet i sense poder reaccionar. Si algú hi té interès, suposo que ja farà els passos que cregui necessaris.
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #9
- Assignat a ha canviat de Olga Cano a Ferran Jorba
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #10
En el seu moment vaig capturar aquests, que serveix de prova-avaluació del procediment:
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #11
- Data de venciment s'ha establert a 27-11-2020
- Paraula clau s'ha establert a NCR
A petició d'un professor capturem el bloc https://blogs.uab.cat/sociedadesue/
El Ferran farà la captura del blog i després farem el registre al DDD. Hi hauria d'haver tot l'html i un pdf de cada pàgina, al registre mirarem de posar la captura del blog i desprès haurem de veure com fem aparèixer els pdf i si es poden extreure tots els autors de les entrades.
AL Actualitzat per Ana Lopo fa més de 5 anys Accions #12
Es podrien recuperar de Web Archive els blogs que ja no existeixen i les URL han estat eliminades?
Exemple: BHFilologia https://web.archive.org/web/20100629194347/http://blogs.uab.cat/bhfilologia/qui-som/
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #13
Ana Lopo va escriure:
Es podrien recuperar de Web Archive els blogs que ja no existeixen i les URL han estat eliminades?
Diria que no; les captures del Web Archive són molt incompletes, al menys per webs menors com els blogs de la UAB.
En canvi, en la darrera setmana he(m) après que sembla que es poden recuperar els blogs eliminats de blogs.uab.cat. La decisió d'eliminar-los per inactivitat no la va prendre el SI, sinó la Vicerectora de Comunicació, malgrat les nostres reserves, i explícitament sense cap notificació prèvia ni cap avis d'aquest canvi de política. Per tant, la petició de recuperació s'ha de fer a l'Àrea de Comunicació de la UAB: https://siastd.uab.es/pcde/entitat.jsf?id=1170
No tinc informació de si costa més o menys recuperar blogs que faci més o menys temps que s'han eliminat (és a dir, no sé si tècnicament es va prendre la decisió d'impedir-ne l'accés però que continui a la base de dades). Suposo que ho aprendrem segons es vagin solucionant els casos.
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #14
Cristina Azorin va escriure:
A petició d'un professor capturem el bloc https://blogs.uab.cat/sociedadesue/
El Ferran farà la captura del blog i després farem el registre al DDD. Hi hauria d'haver tot l'html i un pdf de cada pàgina, al registre mirarem de posar la captura del blog i desprès haurem de veure com fem aparèixer els pdf i si es poden extreure tots els autors de les entrades.
Sembla que me n'he ensortit! He preparat un programa que ho fa en dues passades:
- En primer lloc, utilitzant lynx, captura totes les urls de totes les pàgines d'una web que comencin per una adreça concreta (en el cas que he fet, https://blogs.uab.cat/sociedadesue/).
- En segon lloc, via wget i un munt d'opcions, li passo totes les urls perquè els enllaços entre sí funcionin sense haver de sortir de les pàgines capturades.
En el cas que ens ocupa (la url actual és provisional, però és la que em va millor per accedir-ne l'accés des del Volum-I; i també per deixar lloc per la captura pdf al seu costat):
També he capturat totes les pàgines en forma de PDF, utilitzant l'eina explicada a la tasca #4970:
AL Actualitzat per Ana Lopo fa més de 5 anys Accions #15
Ferran Jorba va escriure:
Ana Lopo va escriure:
Es podrien recuperar de Web Archive els blogs que ja no existeixen i les URL han estat eliminades?
Diria que no; les captures del Web Archive són molt incompletes, al menys per webs menors com els blogs de la UAB.
En canvi, en la darrera setmana he(m) après que sembla que es poden recuperar els blogs eliminats de blogs.uab.cat. La decisió d'eliminar-los per inactivitat no la va prendre el SI, sinó la Vicerectora de Comunicació, malgrat les nostres reserves, i explícitament sense cap notificació prèvia ni cap avis d'aquest canvi de política. Per tant, la petició de recuperació s'ha de fer a l'Àrea de Comunicació de la UAB: https://siastd.uab.es/pcde/entitat.jsf?id=1170
No tinc informació de si costa més o menys recuperar blogs que faci més o menys temps que s'han eliminat (és a dir, no sé si tècnicament es va prendre la decisió d'impedir-ne l'accés però que continui a la base de dades). Suposo que ho aprendrem segons es vagin solucionant els casos.
Moltes gràcies Ferran!!
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #16
Ferran Jorba va escriure:
Cristina Azorin va escriure:
A petició d'un professor capturem el bloc https://blogs.uab.cat/sociedadesue/
El Ferran farà la captura del blog i després farem el registre al DDD. Hi hauria d'haver tot l'html i un pdf de cada pàgina, al registre mirarem de posar la captura del blog i desprès haurem de veure com fem aparèixer els pdf i si es poden extreure tots els autors de les entrades.
Sembla que me n'he ensortit! He preparat un programa que ho fa en dues passades:
- En primer lloc, utilitzant lynx, captura totes les urls de totes les pàgines d'una web que comencin per una adreça concreta (en el cas que he fet, https://blogs.uab.cat/sociedadesue/).
- En segon lloc, via wget i un munt d'opcions, li passo totes les urls perquè els enllaços entre sí funcionin sense haver de sortir de les pàgines capturades.
En el cas que ens ocupa (la url actual és provisional, però és la que em va millor per accedir-ne l'accés des del Volum-I; i també per deixar lloc per la captura pdf al seu costat):
També he capturat totes les pàgines en forma de PDF, utilitzant l'eina explicada a la tasca #4970:
Ferran, he estat mirat, navegant i llegint i em sembla que la captura ha quedat molt bé. La podries passar al clariion per a que fem un registre al DDD. Ho faries d'alguna altra manera?
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #17
Cristina Azorin va escriure:
Ferran, he estat mirat, navegant i llegint i em sembla que la captura ha quedat molt bé. La podries passar al clariion per a que fem un registre al DDD. Ho faries d'alguna altra manera?
No sé, suposo que ja és això. Tinc (al menys) un parell de dubtes:
- Nom del directori arrel: pub/blogs/? pub/blogs.uab.cat/? pub/captures/? pub/web/? (crec que prefereixo la segona, igual que al Volum-I)
- Fem també la fem pública la versió pdf? Aleshores, això influeix en la pregunta anterior? (Per exemple, potser descartaria la segona i tercera opció.) També podem desar-la al Clariion i pensar-nos què fer amb ella, i mentrestant tenim el profe content. Sigui com sigui, jo continuo convençut que si volem preservar l'obra (en el sentit FRBR), l'opció més segura és la seva manifestació en pdf.
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #18
Bé, de moment tiro pel dret; si no ens convenç, ja ho canviarem:
- https://ddd.uab.cat/pub/blogs/sociedadesue/ (la captura del blog, navegable)
- https://ddd.uab.cat/pub/blogs/sociedadesue/pdf/ (les entrades, en pdf)
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #19
Ja he catalogat el bloc al DDD, de moment se que els pdf estan al directori https://ddd.uab.cat/pub/blogs/sociedadesue/pdf/ però entrar-los al registre em dona molta feina.
FJ Actualitzat per Ferran Jorba fa més de 5 anys Accions #20
Evidentment que dóna molta feina. Però això es pot automatitzar força si aprofitem les dades que ens aporta el rss del blog (https://blogs.uab.cat/sociedadesue/feed/), que també he capturat, tot sencer (https://volum-i.uab.cat/blogs.uab.cat/sociedadesue/rss/). Una mostra, en format xml aplanat:
/rss/channel/item/title=A propósito de la libertad de establecimiento y el ordenamiento tributario: la STJUE de 22 de febrero de 2018 /rss/channel/item/link=https://blogs.uab.cat/sociedadesue/2018/03/26/a-proposito-de-la-libertad-de-establecimiento-y-el-ordenamiento$ /rss/channel/item/comments=https://blogs.uab.cat/sociedadesue/2018/03/26/a-proposito-de-la-libertad-de-establecimiento-y-el-ordenami$ /rss/channel/item/dc:creator=Carles Górriz López /rss/channel/item/pubDate=Mon, 26 Mar 2018 14:28:12 +0000 /rss/channel/item/category=Fiscaliad /rss/channel/item/category /rss/channel/item/category=libertad de establecimiento /rss/channel/item/guid/@isPermaLink=false /rss/channel/item/guid=http://blogs.uab.cat/sociedadesue/?p=756 /rss/channel/item/description=A. Introducción La STJUE de 22 de febrero de 2018 resuelve dos causas, C-398/16 y C-399/16, en las que$ /rss/channel/item/content:encoded=<p><strong>A. Introducción</strong></p> /rss/channel/item/content:encoded=<p>La STJUE de 22 de febrero de 2018 resuelve dos causas, C-398/16 y C-399/16, en las que se discu$ /rss/channel/item/content:encoded=<p>De una parte trata de su posible quiebra como consecuencia de la legislación tributaria aplicab$ /rss/channel/item/content:encoded=<p><strong>B. La deducibilidad de los intereses en la base imponible de la matriz de los intereses$ /rss/channel/item/content:encoded=<p>Hay que matizar que se trata de supuestos en que la norma tributaria aplicable a la matriz no p$ /rss/channel/item/content:encoded=<p>En definitiva, si las sociedades matrices y filiales no residentes constituyeran un grupo fisca$ /rss/channel/item/content:encoded=<p>Sobre el carácter comparable de las situaciones se pronuncia expresamente el Tribunal de acuer$ /rss/channel/item/content:encoded=<p>Acerca de esta última cuestión, razones de interés general, se rechazan por el Tribunal tanto s$ /rss/channel/item/content:encoded=<p>Pues bien, de acuerdo con todo lo anterior se pronuncia el Tribunal declarando que, en los térm$ /rss/channel/item/content:encoded=<p><strong>C. La deducibilidad, por la matriz, de la pérdida producida como consecuencia de los ti$ /rss/channel/item/content:encoded=<p>Se trata de una sociedad matriz establecida en un Estado miembro que no está autorizada, por ma$ /rss/channel/item/content:encoded=<p>Esta regla, denominada exención de participación, tiene la consecuencia de que no se toman en c$ /rss/channel/item/content:encoded=<p>La cuestión se plantea cuando sí se permite esa deducibilidad respecto de las filiales que son $ /rss/channel/item/content:encoded=<p>El Tribunal se pronuncia utilizando el parámetro de la comparabilidad de las situaciones, juici$ /rss/channel/item/content:encoded=<p>Señala el Tribunal que la exención de participación no es, a priori, ventajosa ni desventajosa,$ /rss/channel/item/content:encoded=<p style="text-align: right"><strong>María Dolores Arias Abellán</strong></p> /rss/channel/item/content:encoded=<p style="text-align: right">Catedrática de Derecho Financiero y Tributario</p> /rss/channel/item/content:encoded=<p style="text-align: right">Universidad Autónoma de Barcelona</p> /rss/channel/item/content:encoded=<p> </p> /rss/channel/item/content:encoded= /rss/channel/item/wfw:commentRss=https://blogs.uab.cat/sociedadesue/2018/03/26/a-proposito-de-la-libertad-de-establecimiento-y-el-or$ /rss/channel/item/slash:comments=0 /rss/channel/item /rss/channel/item/title=Falta de competencia de los juzgados de lo social para conocer de la acción de responsabilidad de los admini$ /rss/channel/item/link=https://blogs.uab.cat/sociedadesue/2017/12/28/falta-de-competencia-de-los-juzgados-de-lo-social-para-conocer-$ /rss/channel/item/comments=https://blogs.uab.cat/sociedadesue/2017/12/28/falta-de-competencia-de-los-juzgados-de-lo-social-para-cono$ /rss/channel/item/dc:creator=Carles Górriz López /rss/channel/item/pubDate=Thu, 28 Dec 2017 17:02:57 +0000 /rss/channel/item/category=Responsabilidad de los administradores /rss/channel/item/guid/@isPermaLink=false /rss/channel/item/guid=http://blogs.uab.cat/sociedadesue/?p=753 /rss/channel/item/description=En la sentencia de 14.12.2017 (caso Miravitlles), el TJUE ha afirmado que el Derecho comunitario no ot$ /rss/channel/item/content:encoded=<p>En la sentencia de 14.12.2017 (caso <em>Miravitlles</em>), el TJUE ha afirmado que el Derecho c$ /rss/channel/item/content:encoded= /rss/channel/item/wfw:commentRss=https://blogs.uab.cat/sociedadesue/2017/12/28/falta-de-competencia-de-los-juzgados-de-lo-social-par$ /rss/channel/item/slash:comments=0 /rss/channel/item /rss/channel/item/title=Depósito de cuentas anuales y período medio de pago a acreedores /rss/channel/item/link=https://blogs.uab.cat/sociedadesue/2017/12/08/deposito-de-cuentas-anuales-y-periodo-medio-de-pago-a-acreedore$ /rss/channel/item/comments=https://blogs.uab.cat/sociedadesue/2017/12/08/deposito-de-cuentas-anuales-y-periodo-medio-de-pago-a-acree$ /rss/channel/item/dc:creator=Carles Górriz López /rss/channel/item/pubDate=Fri, 08 Dec 2017 15:08:28 +0000 /rss/channel/item/category=General /rss/channel/item/category /rss/channel/item/category=Depósito de cuentas anuales /rss/channel/item/category /rss/channel/item/category=DGRN /rss/channel/item/category /rss/channel/item/category=Registro Mercantil /rss/channel/item/guid/@isPermaLink=false /rss/channel/item/guid=http://blogs.uab.cat/sociedadesue/?p=744 /rss/channel/item/description=Durante los últimos días se ha publicado una avalancha de resoluciones de la DGRN sobre el depósito de$ /rss/channel/item/content:encoded=<p>Durante los últimos días se ha publicado una avalancha de resoluciones de la DGRN sobre el depó$ /rss/channel/item/content:encoded=<p>La DGRN ha emitido diecisiete resoluciones con un contenido casi idéntico, evidenciando un cont$ /rss/channel/item/content:encoded=<p>El marco normativo está formado, en primer lugar, por los artículos 34 y 35 Ccom., 253, 254, 26$ /rss/channel/item/content:encoded=<blockquote><p>Período medio de pago = (saldo medio de acreedores comerciales / compras netas y ga$ /rss/channel/item/content:encoded=<p>Por último, la Orden JUS/471/2017, de 19 de mayo aprueba los modelos para presentación de las c$ /rss/channel/item/content:encoded=<p>La DGRN afirma que es preceptivo indicar el número medio de días que se tarda para pagar a los $ /rss/channel/item/content:encoded=<p>Se plantea un problema cuando la sociedad ha estado inactiva, pues el saldo medio de acreedores$ /rss/channel/item/content:encoded=<blockquote><p>“Llegados a este punto la cuestión se traslada a cómo hacer constar dicha circunsta$ /rss/channel/item/content:encoded=<p>Así las cosas, la DGRN estima el recurso y revoca la nota de calificación en los casos de Alica$ /rss/channel/item/content:encoded=<blockquote><p>“No ocurre así en la sociedad que presenta las cuentas cuyo deposito se solicita qu$ /rss/channel/item/content:encoded= /rss/channel/item/wfw:commentRss=https://blogs.uab.cat/sociedadesue/2017/12/08/deposito-de-cuentas-anuales-y-periodo-medio-de-pago-a$ /rss/channel/item/slash:comments=0
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #21
- S'ha afegit relacionat amb Tasca #5937: Traspàs de les dades de la Memòria UAb cap al DDD (neteja de les pàgines web velles)
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #22
Hem completat el registre del blog capturat de proves amb els pdf https://ddd.uab.cat/record/233586 però si la feina ha de ser manual no val la pena. Hi ha títols amb majúscules, cal vigilar amb la data... He estat quasi una hora i és un blog curt.
Tenim una petició del Vicenç per preservar el blog https://achv.wordpress.com/ però les captures de les imatges donen problemes.
Demanarem de reobrir els blogs de les biblioteques i també aprofitarem per comentar que no ens sembla correcte l'opció de donar de baixa els blog inactius durant un any. Que no s'actualitzin pensem qu eno té a veure amb la importància de la informació que contenen.
CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #23
Olga Cano va escriure:
Només he trobat les URL actives dels següents blogs, alguns encara en funcionament però la majoria ja no s'actualitzen:
- Blog de Comunicació: https://blogs.uab.cat/comunicacio/
- Medibloc (Biblioteca de Medicina): https://blogs.uab.cat/medibloc/
- Notícies UE (CDE): https://blogs.uab.cat/cdeuabinfo/
- BCT al dia: https://blogs.uab.cat/bctot/
- BCTOT Estudiants: https://blogs.uab.cat/bctotestudiants/
- BCTOT PDI: https://blogs.uab.cat/bctotpdi/
- Biblioteca Informacions: https://blogs.uab.cat/bibliotecainformacions/
La resta de blogs, ja no existeixen i les URL han estat eliminades:
bhgeografia
bctotciencies
busempresarials
bhumanitats
bcsdret
bcspolitiques
bcseconomia
bhantropologia
bhart
bhasiaoriental
bheducacio
bhfilologia
bhfilosofia
bhhistoria
bhmusica
bhpsicologia
bhgtraduccio
cuidabloc
GESTIÓ AERONÀUTICA
MEDICINA I SANITAT ANIMALS
AGRICULTURA I PRODUCCIONS ANIMALS
ALIMENTS
L'Àrea de Comunicació ha respost: - Hem reactivat els següents blogs:
Hem reactivat:
bhgeografia
bctotciencies
busempresarials
bcsdret
bcspolitiques
bcseconomia
bhantropologia
bhart
bhasiaoriental
bheducacio
bhfilologia
bhfilosofia
bhhistoria
bhmusica
bhpsicologia
bhtraduccio
cuidabloc
També reactivats (no en sabíeu el nom):
blogs.uab.cat/busaeronautica
blogs.uab.cat/bibvetmedicinanimal
blogs.uab.cat/bibvetagropecuari
blogs.uab.cat/bibvetaliments
Ferran, podries fer la captura?
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys Accions #24
- Data de venciment ha canviat de 27-11-2020 a 30-04-2021
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #25
- Data de venciment ha canviat de 30-04-2021 a 30-04-2023
- Paraula clau s'ha suprimit (
NCR)
Després del ciberatac de l'octubre de 2021 no hi ha encara data de recuperació dels blogs.
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #26
- Prioritat ha canviat de Normal a Alta
- Paraula clau s'ha establert a drupal blog blogs
Els blogs ja estan oberts, hauríem de tornar a fer proves de captura automàtica.
També hi ha drupals de biblioteques que ja estan tancats. Ens passaran la llista. Podem començar per entrar tots els blogs que estan en aquesta tasca, que ells ja els tenen a la llista 'per arxiu històric'.
Per a la resta d'usuaris que han detectat que tenen blogs o drupals per arxivar els diran que contactin amb ddd.bib@uab.cat. Ens enviaran el text del correu que enviaran perquè donem la nostra aprovació.
D'aquí a unes setmanes tornarem a fer una reunió breu per avaluar els que queden pendents i com van les nostres tasques 'd'automatització' del sistema de captura.
FJ Actualitzat per Ferran Jorba fa quasi 4 anys Accions #27
El què he fet és capturar tots els blogs. Em resulta més senzill capturar-los tots que fer un formulari de petició:
http://volum-i.uab.cat/pagweb/blogs.uab.cat/
Voldria fer el mateix amb pagines.uab.cat, però ara mateix no trobo el llistat, que em va arribar en un full de càlcul. Quan el trobi, faré el mateix, perquè ho tinc completament automatitzat.
Pel què fa a passar-los del Volum-I al Clariion, encara no tinc decidit com, però podria ser una cosa tan senzilla com posar-li una 856 al registre amb l'adreça que ha de tenir, ex:
https://ddd.uab.cat/pub/pagweb/any/exempledeblog/
En el cas dels blogs, l'any d'inici.
I cada dia que un programa miri si existeix o no, i si no existeix, copiar-lo del Volum-I al Clariion.
FJ Actualitzat per Ferran Jorba fa quasi 4 anys Accions #28
Avui he capturat la llista de les pagines.uab.cat que la Guada Barea ens va passar com a "arxivables". També són al Volum-I:
CA Actualitzat per Cristina Azorin fa quasi 4 anys Accions #31
- S'ha afegit relacionat amb Incidència #7002: No es poden capturar informació de diferents serveis de la UAB
CA Actualitzat per Cristina Azorin fa quasi 4 anys Accions #32
Per a capturar:
https://blogs.uab.cat/anecdotesuab50anys/
https://blogs.uab.cat/armifautoregulacio/
https://blogs.uab.cat/nalubaale/
https://blogs.uab.cat/whentheislandwassold/
https://grupsderecerca.uab.cat/laicom
https://jornades.uab.cat/haikuenllenguacatalana/
https://pagines.uab.cat/conferenciaciutadana/
https://pagines.uab.cat/pbe/
https://pagines.uab.cat/tipp/
https://sct.uab.cat/lsds/
Aquest registre no se molt bé perquè no surt bé i no apareix la miniatura: https://ddd.uab.cat/record/258803
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #33
Ja estan totes capturades: https://volum-i.uab.cat/pagweb/
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #34
Queda que el Ferran automatitzi la còpia des del Volum-I al Clariion a partir de l'existència d'una 856 amb el mateix nom que la pàgina capturada al Volum-I.
CA Actualitzat per Cristina Azorin fa més de 3 anys Accions #35
Per a afegir les pàgines capturades al DDD cal fer:
Feu el registre al DDD per cada blog sense fer cap captura de web. Posteriorment, editeu-lo i afegiu l’etiqueta 856 40 seguint aquesta estructura
https://ddd.uab.cat/pub/pagweb/any/nomblog/
Aquí teniu un exemple
https://ddd.uab.cat/record/259419
CA Actualitzat per Cristina Azorin fa més de 3 anys Accions #36
- Data de venciment ha canviat de 30-04-2023 a 23-12-2022
- Paraula clau ha canviat de drupal blog blogs a drupal blog blogs NCR
CA Actualitzat per Cristina Azorin fa més de 3 anys Accions #37
Ferran, cal carregar els blogs o pàgines en els registres següents:
https://ddd.uab.cat/record/258805
https://ddd.uab.cat/record/258827
https://ddd.uab.cat/record/258825
https://ddd.uab.cat/record/258821
No sé què hem de fer amb aquest cas:
https://sct.uab.cat/lsds
https://ddd.uab.cat/record/258820
Bona part de la web ha estat "desmantellada".
NC Actualitzat per Nuria Contreras fa més de 3 anys Accions #38
També cal capturar aquesta
https://ddd.uab.cat/record/259285
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #39
Fets:
- https://ddd.uab.cat/record/259285
- https://ddd.uab.cat/record/258805
- https://ddd.uab.cat/record/258821
Aquests resulta que l'original no es va capturar, ja no hi és i no el puc adjuntar
ES Actualitzat per Eulàlia Serre fa més de 3 anys Accions #40
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #41
Eulalia Serre va escriure:
Pendents?:
https://ddd.uab.cat/record/264054
https://ddd.uab.cat/record/264055
https://ddd.uab.cat/record/264056
https://ddd.uab.cat/record/264057
Ja funcionen tots, gràcies per fixar-t'hi.
CA Actualitzat per Cristina Azorin fa aproximadament 3 anys Accions #42
- Estat ha canviat de En curs a Tancada
- Prioritat ha canviat de Alta a Normal
L'experiència d'aquest any ha servit, entre d'altres coses, per veure que l'automatització de les captures és complicada i no sempre funciona correctament, cal estudiar cas a cas.
Per a poques pàgines web la solució actual en els registres ja funciona, si arriba alguna petició especial haurem de parlar amb el Ferran.
CA Actualitzat per Cristina Azorin fa aproximadament 3 anys Accions #43
- Paraula clau s'ha suprimit (
drupal blog blogs NCR)