Tasca #973
tancatNo es poden capturar conjunts de documents HTML si n'hi ha que tenen el mateix nom
Descripció
Porto força estona refent la mateixa captura html del volum 31 de Estudios de Lingüística del Español. I no sé per què, tot i que faig constar totes les pàgines que vull que capturi, no captura de forma global, es deixa pàgines sense capturar .. i cada cop que ho faig se'n deixa de diferents ... de fet ja els problemes ja hi eren amb aquella revista que vam deixar en stand by: Revista electrónica de salud y mujer.
FJ Actualitzat per Ferran Jorba fa més de 15 anys
Mail de la Montse:
he tornat a fer la captura del numero 31 de la revista Elies, per fer la captura de la pàgina (log) - que t'adjunto (Elies_captura)
A continuació et llisto les pàgines que he capturat.
elies_a2010v31
- http://elies.rediris.es/elies31/index.html
- http://elies.rediris.es/miscelanea/misce_7/adelstein.pdf
- http://elies.rediris.es/miscelanea/misce_7/adelstein-anexos.pdf
- http://elies.rediris.es/miscelanea/misce_9/alcina.pdf
- http://elies.rediris.es/miscelanea/misce_8/cramer.html
- http://elies.rediris.es/miscelanea/misce_5/Cristobal.pdf
- http://elies.rediris.es/miscelanea/misce_2/index.html
- http://elies.rediris.es/miscelanea/misce_6/Subirats-Petruck.pdf
- http://elies.rediris.es/miscelanea/misce_3/index.html
- http://elies.rediris.es/miscelanea/misce_4/index.html
- http://cvc.cervantes.es/obref/congresos/sevilla/tecnologias/ponenc_subirats.htm
- http://elies.rediris.es/miscelanea/misce_4/Preface_Chapter1.pdf
- http://elies.rediris.es/miscelanea/misce_4/Chapter5.pdf
- http://elies.rediris.es/miscelanea/misce_4/Chapter7.pdf
- http://elies.rediris.es/miscelanea/misce_4/References.pdf
http://ddd.uab.cat/record/60962 - Aquí podeu veure el resultat.
FJ Actualitzat per Ferran Jorba fa més de 15 anys
- Estat ha canviat de Creada a Tancada
FJ Actualitzat per Ferran Jorba fa més de 15 anys
Montse,
gràcies per passar-me tota la informació detallada. Em sembla que ja sé què passa: en la llista de fitxers que li demanes al wget, n'hi ha uns quants que tenen el mateix nom (index.html). Com que a la llista d'opcions que li passo hi ha el --no-clobber
(http://www.gnu.org/software/wget/manual/html_node/Download-Options.html#index-clobbering_002c-file-27), doncs wget no la baixaba. De fet, el manual diu:
‘-nc’ may not be specified at the same time as ‘-N’.
Traduit, i posant les opcions llargues, més clares, en comptes de les curtes:
'--no-clobber' no es pot especificar al mateix temps que '--timestamping'
Cosa que resulta que jo estava fent. Mirant-m'ho un altre cop, segurament sí que hi he de posar el --timestamping però no el --no-clobber. L'ajuda del wget potser és més clara:
-nc, --no-clobber skip downloads that would download to existing files.
(Segurament la frase hauria de ser: «skip downloads that would ''overwrite''...»)
-N, --timestamping don't re-retrieve files unless newer than local.
Hi he eliminat el --no-clobber i he fet una captura amb el nom elies_ferran, i m'ha capturat les pàgines amb els noms repetits, numerant-les així (index.html.1.html, index.html.1.1.html, index.html.1.2.html, etc.):
[...] 2010-09-15 09:29:55 URL:http://elies.rediris.es/miscelanea/ misce_2/index.html [82577/82577] -> "index.html.1.html" [1] http://elies.rediris.es/miscelanea/misce_2/Subirats_archivos/header.htm: 2010-09-15 09:29:55 ERROR 404: Not Found. http://elies.rediris.es/miscelanea/misce_2/cir_roj.gif: 2010-09-15 09:29:55 ERROR 404: Not Found. 2010-09-15 09:29:55 URL:http://elies.rediris.es/miscelanea/misce_6/Subirats-Petruck.pdf [131269/131269] -> "Subirats-Petruck.pdf" [1] 2010-09-15 09:29:55 URL:http://elies.rediris.es/miscelanea/misce_3/index.html [10800/10800] -> "index.html.1.1.html" [1] 2010-09-15 09:29:55 URL:http://elies.rediris.es/miscelanea/misce_4/index.html [4548/4548] -> "index.html.1.2.html" [1] [...]
Si et sembla, el deixo d'aquesta manera, i si trobes que a partir d'ara fa alguna cosa extranya, em tornes a avisar.
FJ Actualitzat per Ferran Jorba fa més de 15 anys
- Estat ha canviat de Tancada a Creada
FJ Actualitzat per Ferran Jorba fa més de 15 anys
Reobro. Aquesta solució, que va arreglar el cas de la revista ELIES, va espatllar la captura d'algun altre document, em sembla que les exposicions.
He de fer que sigui opcional, en el moment de la captura.
FJ Actualitzat per Ferran Jorba fa aproximadament 9 anys
- S'ha afegit relacionat amb Tasca #1125: Fer opcional l'opció --no-clobber al capturar pàgines web
CA Actualitzat per Cristina Azorin fa aproximadament 7 anys
- S'ha actualitzat Descripció (diferències)
- Estat ha canviat de Creada a Tancada
CA Actualitzat per Cristina Azorin fa aproximadament 6 anys
- Tipus de tasca ha canviat de Defecte a Tasca