Projecte

General

Perfil

Accions

Tasca #973

tancat
MR FJ

No es poden capturar conjunts de documents HTML si n'hi ha que tenen el mateix nom

Tasca #973: No es poden capturar conjunts de documents HTML si n'hi ha que tenen el mateix nom

Afegit per Montserrat Reche fa més de 15 anys. Actualitzat fa aproximadament 6 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
-
Inici:
Data de venciment:
Paraula clau:

Descripció

Porto força estona refent la mateixa captura html del volum 31 de Estudios de Lingüística del Español. I no sé per què, tot i que faig constar totes les pàgines que vull que capturi, no captura de forma global, es deixa pàgines sense capturar .. i cada cop que ho faig se'n deixa de diferents ... de fet ja els problemes ja hi eren amb aquella revista que vam deixar en stand by: Revista electrónica de salud y mujer.


Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #1125: Fer opcional l'opció --no-clobber al capturar pàgines webAnul·latFerran JorbaAccions

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #2

  • Estat ha canviat de Creada a Tancada

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #3

Montse,

gràcies per passar-me tota la informació detallada. Em sembla que ja sé què passa: en la llista de fitxers que li demanes al wget, n'hi ha uns quants que tenen el mateix nom (index.html). Com que a la llista d'opcions que li passo hi ha el --no-clobber

(http://www.gnu.org/software/wget/manual/html_node/Download-Options.html#index-clobbering_002c-file-27), doncs wget no la baixaba. De fet, el manual diu:

‘-nc’ may not be specified at the same time as ‘-N’.

Traduit, i posant les opcions llargues, més clares, en comptes de les curtes:

'--no-clobber' no es pot especificar al mateix temps que '--timestamping'

Cosa que resulta que jo estava fent. Mirant-m'ho un altre cop, segurament sí que hi he de posar el --timestamping però no el --no-clobber. L'ajuda del wget potser és més clara:

-nc, --no-clobber             skip downloads that would download to existing files.

(Segurament la frase hauria de ser: «skip downloads that would ''overwrite''...»)

-N,  --timestamping           don't re-retrieve files unless newer than local.

Hi he eliminat el --no-clobber i he fet una captura amb el nom elies_ferran, i m'ha capturat les pàgines amb els noms repetits, numerant-les així (index.html.1.html, index.html.1.1.html, index.html.1.2.html, etc.):

 [...]
 2010-09-15 09:29:55 URL:http://elies.rediris.es/miscelanea/
  misce_2/index.html [82577/82577] -> "index.html.1.html" [1]
 http://elies.rediris.es/miscelanea/misce_2/Subirats_archivos/header.htm:
 2010-09-15 09:29:55 ERROR 404: Not Found.
 http://elies.rediris.es/miscelanea/misce_2/cir_roj.gif:
 2010-09-15 09:29:55 ERROR 404: Not Found.
 2010-09-15 09:29:55 URL:http://elies.rediris.es/miscelanea/misce_6/Subirats-Petruck.pdf [131269/131269] -> "Subirats-Petruck.pdf" [1]
 2010-09-15 09:29:55 URL:http://elies.rediris.es/miscelanea/misce_3/index.html [10800/10800] -> "index.html.1.1.html" [1]
 2010-09-15 09:29:55 URL:http://elies.rediris.es/miscelanea/misce_4/index.html [4548/4548] -> "index.html.1.2.html" [1]
[...]

Si et sembla, el deixo d'aquesta manera, i si trobes que a partir d'ara fa alguna cosa extranya, em tornes a avisar.

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #4

  • Estat ha canviat de Tancada a Creada

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #5

Reobro. Aquesta solució, que va arreglar el cas de la revista ELIES, va espatllar la captura d'algun altre document, em sembla que les exposicions.

He de fer que sigui opcional, en el moment de la captura.

FJ Actualitzat per Ferran Jorba fa aproximadament 9 anys Accions #6

  • S'ha afegit relacionat amb Tasca #1125: Fer opcional l'opció --no-clobber al capturar pàgines web

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #7

  • S'ha actualitzat Descripció (diferències)
  • Estat ha canviat de Creada a Tancada

CA Actualitzat per Cristina Azorin fa aproximadament 6 anys Accions #8

  • Tipus de tasca ha canviat de Defecte a Tasca
Accions

També disponible a: PDF Atom