Projecte

General

Perfil

Accions

Tasca #687

tancat
FJ FJ

Separar els articles de revista en directoris, un per número

Tasca #687: Separar els articles de revista en directoris, un per número

Afegit per Ferran Jorba fa aproximadament 16 anys. Actualitzat fa més de 11 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
-
Inici:
Data de venciment:
Paraula clau:

Descripció

En la seva distribució actual (tots els articles de cada revista en un sol directori), el número de fitxers per directori va creixent continuadament. Aquesta situació té alguns inconvenients:

  • En algun moment creixeran més enllà del que és òptim (per sota de 1000 fitxers per directori).
  • No es poden aplicar tècniques de preservació (ex., fitxers de paritat o backups remots) perquè no hi ha cap unitat «tancada».

Això és especialment rellevant per a les revistes de la UAB, a les que tenim més responsabilitat. Valdria la pena crear un directori per número (issue). Ho hem de fer preservant la compatibilitat amb les URLs ja existents. Això és relativament fàcil, perquè els noms dels fitxers segueixen una estructura molt regular: !ISSNvXnYpZ.pdf. D'aquesta manera, només cal agafar la porció del fitxer fins a la lletra «p» o «a», i aquesta part seria el nom del directori. Tant Apache com altres servidors de Web proporcionen eines per a reenviar d'una adreça a una altra, fins i tot indiant si el canvi és temporal o permament (tema important per als robots com Google). Vegeu http://httpd.apache.org/docs/2.2/mod/mod_rewrite.html#rewriterule.

En el que estic pensant doncs és canvis de URL com aquests:

/pub/analisi/02112175n35p17.pdf -> /pub/analisi/02112175n35/02112175n35p17.pdf
/pub/pubmat/02141493v54n1p173.pdf -> /pub/pubmat/02141493v54n1/02141493v54n1p173.pdf
/pub/dim/16993748n11a2.pdf -> /pub/dim/16993748n11/16993748n11a2.pdf
/pub/1611/19882963n2a2/mattoni.htm -> /pub/1611/19882963n2/19882963n2a2/mattoni.htm

Els passos haurien de ser:

  1. Canviar les regles per distribuir els nous articles en el formulari de catalogació, perquè els nous articles catalogats vagin a parar a un directori per número.
  2. Fer una prova de canvi dels fitxers anteriors per una revista petita (ex. http://ddd.uab.cat/record/9):
  3. Traslladar els fitxers en subdirectoris per número.
  4. Fer una regla de URL només per a aquest ISSN, i comprovar que funcioni correctament, fins i tot sense canviar les URLs del nostres registres del DDD.
  5. Canviar les URLs dels nostres registres.
  6. Repetir per a una altra revista, preferiblement ampliant l'expressió regular perquè agafi més d'un cas.
  7. Finalment, fer-ho per a totes les altres revistes de la UAB.

Tasques relacionades 2 (0 obertes2 tancades)

relacionat amb DDD - Tasca #2218: Cal el $q de la 773?TancadaFerran Jorba21-03-2013Accions
relacionat amb DDD - Tasca #1245: Fènix. Repassar la detecció automàtica d'articlesTancadaFerran Jorba14-07-2014Accions

FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #1

A partir d'ara ja s'hauria de crear automàticament un directori per issue per a les revistes. Algunes coses començaran a fallar en el procés, de manera que vigilaré el procés.

FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #2

Estic afinant la distribució. Si és un article d'una revista amb ISSN, primer s'ha de crear la 973 $x (codi del issue, del tipus ISSNvX, ISSNnY o ISSNvXnY), i és quan el sistema es troba la 973 $x que ja decideix on anirà el PDF: /pub/revista/ISSNvXnY/fitxer.pdf.

Això fa que la distribució dels PDFs ara mateix trigui una mica més que abans. Miraré d'ajustar-ho.

També he fet fet el canvi perquè les miniatures del les portades dels issues els vagi a buscar en el subdirectori i, si no el troba, en el directori principal, perquè funcioni en els dos casos. Mentrestant, han començat a sortir algunes inconsistències per algunes de les revistes que buidem però tenen el nou esquema revista_aXXXXmYvZnN. Els estic resolent a mesura que m'hi trobo.

FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #3

Completat amb els articles de la Revista Española de Economía (http://ddd.uab.cat/collection/ree), i a més amb un redireccionament automàtic 301 (Moved Permanently) dels PDFs que estiguessin enllaçats amb l'adreça antiga a la nova, ex:

Ho he fet amb una regla d'Apache (http://httpd.apache.org/docs/current/mod/mod_rewrite.html) que aniré ampliant perquè agafi els nous ISSNs a mesura que distribuim els fitxers. Ho faré per ordre de ISSN, aprofitant que hem d'afegir-hi els identificadors de Fènix (tasca #1245).

Els següents seran, doncs:

  • 0210-2862 Papers
  • 0210-2978 Publicacions de la Secció de Matemàtiques
  • 0210-7570 Faventia
  • 0211-2175 Anàlisi
  • 0211-3481 Cuadernos de psicología
  • 0211-402X Enrahonar
  • 0211-6391 Recerca musicològica
  • 0211-819X Educar
  • etc

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #4

  • Estat ha canviat de Creada a En curs

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #5

  • Estat ha canviat de En curs a Tancada

Per fi!

Accions

També disponible a: PDF Atom