Tasca #5578
tancatContinuar amb la càrrega de PubMed malgrat els errors de connexió
Descripció
Avui m'he fixat que no tenim càrregues de PubMed del 2019, ni per tant tampoc del 2020. Mirant què havia passat, he vist que esporàdicament, hi ha un error de connexió:
[...]
pmids de la UAB a Pubmed 2014: 2219
[...]
PMC4251302
PMC3930022
PMC6985639
Traceback (most recent call last):
File "/home/ddd/bin/pubmed2ddd.py", line 133, in <module>
main()
File "/home/ddd/bin/pubmed2ddd.py", line 127, in main
download_pubmed(year, force=force)
File "/home/ddd/bin/pubmed2ddd.py", line 104, in download_pubmed
pdf = requests.get(url, headers=user_agent_headers).content
File "/home/ddd/.local/lib/python2.7/site-packages/requests/api.py", line 75, in get
return request('get', url, params=params, **kwargs)
File "/home/ddd/.local/lib/python2.7/site-packages/requests/api.py", line 60, in request
return session.request(method=method, url=url, **kwargs)
File "/home/ddd/.local/lib/python2.7/site-packages/requests/sessions.py", line 533, in request
resp = self.send(prep, **send_kwargs)
File "/home/ddd/.local/lib/python2.7/site-packages/requests/sessions.py", line 668, in send
history = [resp for resp in gen] if allow_redirects else []
File "/home/ddd/.local/lib/python2.7/site-packages/requests/sessions.py", line 247, in resolve_redirects
**adapter_kwargs
File "/home/ddd/.local/lib/python2.7/site-packages/requests/sessions.py", line 646, in send
r = adapter.send(request, **kwargs)
File "/home/ddd/.local/lib/python2.7/site-packages/requests/adapters.py", line 498, in send
raise ConnectionError(err, request=request)
requests.exceptions.ConnectionError: ('Connection aborted.', BadStatusLine('No status line received - the server has closed the connection',))
#filename = pmc_11940458.pmc
Com que el shell script crida el programa Python passant-li com a paràmetre tots els anys des del 2000 fins l'actual, si hi ha un error de connexió, el programa peta i ja no en processa cap més. Avui, per exemple, ha petat el 2014.
Cal fer que el programa no peti per un error de connexió, i que continuï endavant amb els següents articles.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
- S'ha afegit relacionat amb Tasca #867: Càrrega dels articles de PubMed d'autors de la UAB
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
- S'ha actualitzat Descripció (diferències)
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
Potser també seria útil girar l'ordre, i començar per l'any actual i anar enrere fins al 2000. I sí, els anys anteriors cal fer-los perquè PubMed fa seguiment dels embargaments, i un article que fa un parell d'anys no podíem aprofitar, potser ara ja podem.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
- S'ha actualitzat Descripció (diferències)
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
Javier, n'hem parlat amb la Marta Jordán i hem quedat que cada setmana incrementarem un any, començant la setmana que ve fins el 2016.
JP Actualitzat per Javier Planella fa aproximadament 6 anys
Programado:
ddd@mompou:~/bin/pubmed2ddd.sh
de tal manera que el proximo lunes procesara del 2000 al 2016, la siguiente, del 2000 al 2017, la otra setmana del 2000 al 2018, la siguiente del 2000 al 2019, y la ultima hasta el año actual
JP Actualitzat per Javier Planella fa aproximadament 6 anys
- Estat ha canviat de Creada a Tancada
ya estan procesados todos los años. Quito el programa de "monday.sh"
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
- Estat ha canviat de Tancada a En curs
Javier Planella va escriure:
ya estan procesados todos los años. Quito el programa de "monday.sh"
El programa ha de continuar funcionant cada setmana. El que ja no cal fer és aquest joc d'incrementar l'any cada setmana, que només vam fer per no acumular massa feina per revisar.
JP Actualitzat per Javier Planella fa aproximadament 6 anys
- Estat ha canviat de En curs a Tancada
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Em sap greu, però avui casualment he vist que des del 18 de març no s'estava processant res de nou de Pubmed. Ho reactivo perquè torni a funcionar cada dilluns a partir de la setmana que ve.