Projecte

General

Perfil

Accions

Tasca #896

tancat
MR FJ

Captura de la revista RCEAP, només per a usuaris registrats

Tasca #896: Captura de la revista RCEAP, només per a usuaris registrats

Afegit per Montserrat Reche fa quasi 16 anys. Actualitzat fa més de 12 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
-
Inici:
Data de venciment:
Paraula clau:

Descripció

Ferran,

t'he estat trucant per telèfon però estaves ocupat i és per això que obro aquesta tasca wiki:

es tracta de dues revistes de la Fundació Biblioteca Josep Laporte de les que hem obtingut l'autorització i hem catalogat i traspassat al DDD.

Problema: no tenen pdf's ni tan sols són html (crec que php).

He fet el de sempre amb les captures html, i he triat la opció aquella de convertir a html el que no ho sigui, però no m'ha funcionat. He entrar el primer article de cada revista i des de la pantalla marc dels articles respectius he fet la captura de tots els articles del número per a que tots estiguessin sota el directori corresponent al número.

Li he comentat a la Cristina i ella no m'ha sabut donar resposta i m'ha recomanat que t'ho comentés.

En fi .. que cada cop ens ho posen més difícil .... espero la teva resposta.

Moltes gràcies per la teva feina i les teves solucions!!!

m.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #1

Montse,

quin és el registre de la catalogació del primer article que has catalogat? Perquè suposo que si en fas buidat, catalogaràs article a article, no? Si és així, crec que el procediment hauria de ser:

  1. Catalogar l'article com qualsevol altre, però no adjuntar-hi cap PDF.
  2. Quan ja tinguis el registre, afegir-hi la pàgina Web corresponent on hi ha l'article. És indiferent si està generada via PHP, Java, o feta HTML a mà. Val la pena que li donis el nom corresponent com sempre ISSNvXnYaZ i li diguis que hi afegeixi l'extensió HTML.

Si ha anat bé, ja podràs afegir-hi la URL, però haurà de ser a posteriori.

Jo diria que aquí tenim u

MR Actualitzat per Montserrat Reche fa quasi 16 anys Accions #2

  • Estat ha canviat de Creada a Anul·lat

MR Actualitzat per Montserrat Reche fa quasi 16 anys Accions #3

Ferran,

aquests són els articles:

Crec que he seguit els passos tal i com comentes però potser el que he fet diferent ha estat lo de fer la captura html individual (l'he fet col·leciva ...) bé ara he de marxar però m'ho miro després! Gràcies!

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #4

  • Estat ha canviat de Anul·lat a Creada

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #5

Ah, potser el volies capturar tots els articles de cada número d'una tacada?

MR Actualitzat per Montserrat Reche fa quasi 16 anys Accions #6

Exacte!

això vaig intentar de fer però no var resultar .... :(

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #7

Ja veig. He vist que la presència del caràcters especials (?, &, etc) causaven que les pàgines no es capturessin bé. Ara ja he fet que funcioni, passant-li l'opció --restrict-file-names=window,ascii més al wget (http://www.gnu.org/software/wget/manual/html_node/Download-Options.html#index-file-names_002c-restrict-58).

També he vist que la pàgina amb els números anteriors està a http://www.obsym.org/jsp/Resym/resym.jsp. Costa de trobar, eh?

Amb aquests canvis he lograt capturar un número sencer (Núm. 54, Febrero 2010) i l'he adjuntat al registre http://ddd.uab.cat/record/57212. El que he fet és anar copiant i enganxant a un editor les 10 URLs de tots els articles i portada que a mi m'han sortit com a que formen el número 54, i dir-li que el nom únic és resym_a2010m2n54 i passant-li totes les URLs.

Hi he afegit també la miniatura, tot i que m'ha costat una mica, perquè els fitxers continuen tenint massa caràcters especials (concretament el &, que el wget me'l manté en els noms dels fitxers). Potser la miniatura la podré gestionar millor a partir de la tasca #

És això, el que t'interessava fer?

MR Actualitzat per Montserrat Reche fa quasi 16 anys Accions #8

Perfecte Ferran!

ara m'hi posaré a fer la resta de números (haviam si m'ensurto)

Pel que fa, però, a l'altra revista http://ddd.uab.cat/record/57210?ln=ca

hem vist que per accedir al text complet cal registrar-se i que, per tant, això afectarà a la URL que cal capturar per l'html. Com ho fem???

L'altre possibilitat és que, com estic registrada i puc accedir al text complet, puc passar-ho a pdf amb la opció imprimir --> adobe pdf.

Com ho veus tot plegat?

Gràcies!!!!!!!!!!!!

m.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #9

Acabo d'afegir la possibilitat d'introduir nom d'usuari i contrasenya per a capturar pàgines remotes, ja que wget ho permet. Només he fet que el formulari ho demani i, passar-les al wget si en poseu. Em podries provar si funciona, si us plau?

MR Actualitzat per Montserrat Reche fa quasi 16 anys Accions #10

Ferran,

no t'acabo d'entendre.

A més, la revista no és html oi?

És a dir, que li he de posar allò de generar o convertir a html no?

millor que en parlem més, perquè no estic segura de la pàgina exacte que he de capturar ...

MR Actualitzat per Montserrat Reche fa quasi 16 anys Accions #11

Ferran, respecte la 1a revista, tot i haver capturat les URL de tots els articles del número, després al DDD quan cliques, segueixen tenint la seva adreça original :(

http://ddd.uab.cat/record/57212

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #12

Montse,

ahir vaig voler anar massa de pressa i no em vaig explicar. El que volia dir és que a l'opció de ''Capturar i afegir pàgines HTML completes a aquest registre'' hi ha des d'ahir un parell de caselles més, per posar-hi el nom d'usuari i contrasenya necessàries per capturar webs remotes, en cas que ho requereixin. Però com que ho vaig fer de pressa i corrents a última hora i sense provar-ho, et vaig demanar que ho provessis tu.

En tot cas, aquesta tarda en parlem per telèfon, de les dues revistes.

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #13

  • Tema ha canviat de Revistes de la FBJL a Captura de la revista RCEAP, només per a usuaris registrats

MR Actualitzat per Montserrat Reche fa més de 15 anys Accions #14

Ferran,

he fet una prova amb la revista RCEAP, la de la contrasenya.

Però crec que m'he fet un embolic entre lo de les contrasenyes, els àlies i tot plegat.

Això de l'àlies va bé per quan captures el volum sencer com a butlletí oi?

com passa amb la revista RESYM però aquí cal anar article per article, i com podràs veure, el primer article del numero 18 (una editorial) es queda amb el nom de l'àlies i aleshores la resta d'articles què? és a dir, com anomeno a la resta d'articles?

http://ddd.uab.cat/record/63647 - aki ok, però

i aki? --> http://ddd.uab.cat/record/63683

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #15

Uf, hi he estat molta estona, he pogut capturar algun article (m'he donat d'alta) i després ja no em deixava.

Continuarà...

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #16

Donat que segons l'editorial del darrer número la revista RCEAP canviarà, estic provant de capturar-la sencera amb httrack (http://httrack.com/).

MR Actualitzat per Montserrat Reche fa més de 15 anys Accions #17

M'espero doncs a que em diguis el moment idoni per remprende la feina.

Gràcies,

m.

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #18

La veritat és que en aquest cas diria que haurem de prendre alguna decisió radical. He arribat a la conclusió, via prova i error, que les eines que he provat (wget i httrack) que permeten autenticar-se amb el que seria la Basic Autentication d'Apache (les finestres de pop-up cutres, per entendre'ns) i no les aplicacions més sofisticades amb cookies.

Em queda una prova més, que en algun lloc vaig trobar documentat que es pot fer: obrir una sessió amb un navegador gràfic normal (ex., Firefox), recollor la cockie de la sessió i passar-la al robot.

Si amb això no me'n surto, em sembla que només queda posar-nos en contacte amb ells perquè ens l'obrin una estona mentre la recullo.

MR Actualitzat per Montserrat Reche fa més de 15 anys Accions #19

Com està el tema Ferran?

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #20

Pendent...

MR Actualitzat per Montserrat Reche fa més de 14 anys Accions #21

Ferran,

caldria concloure aquesta tasca pendent.

La reobro i te la mires si us plau?

Gràcies,

m.

FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #22

Sento no poder-me dedicar ara mateix, queda pendent...

CA Actualitzat per Cristina Azorin fa més de 12 anys Accions #23

  • Estat ha canviat de Creada a Tancada

Aquesta revista es va acabar al juliol de 2011. Tanco la tasca!

Accions

També disponible a: PDF Atom