Tasca #4122
tancatGoogle Scholar meta tags: eliminar les paginacions no rellevants
Descripció
La nostra amiga Darcy ens ha tornat a escriure:
From: Darcy Dapra <darcyd@google.com>
To: Ferran Jorba <Ferran.Jorba@uab.cat>
Cc: Cristina Azorin <Cristina.Azorin@uab.cat>
Subject: Re: Inquiry regarding ddd.aub.cat (Google Scholar)
Date: Tue, 28 Jun 2016 10:39:31 -0700
Hello again, Ferran!
Really sorry for yet one more quick request, but the Scholar engineers
noticed the following, and they're wondering if you might be able to have a
look?
See for example:
view-source:http://ddd.uab.cat/record/155749?ln=ca
<https://www.google.com/url?q=http://ddd.uab.cat/record/155749?ln%3Dca&sa=D&usg=AFQjCNGeqS_cCAous1gR6DR6p1AkyiYUxg>
<meta content="0001" name="citation_firstpage" />
<meta content="2" name="citation_lastpage" />
view-source:http://ddd.uab.cat/record/155741?ln=ca
<https://www.google.com/url?q=http://ddd.uab.cat/record/155741?ln%3Dca&sa=D&usg=AFQjCNFuD1Cs4E_YhukDeK3dC-D1qE_Wnw>
<meta content="0001" name="citation_firstpage" />
<meta content="2" name="citation_lastpage" />
If your repository doesn't have page number info, then it would be best to
skip these fields altogether. Would that be possible?
And then, with that adjustment, all should be good to go! (Again sorry for
so much email; once all is in place, though, Scholar should index your
content beautifully.)
Cheers, and hope that you are doing well,
Darcy
Tasques relacionades 3 (0 obertes — 3 tancades)
FJ Actualitzat per Ferran Jorba fa més de 9 anys
- S'ha afegit copiada des de Tasca #4030: Google Scholar meta tags: separar autors d'institucions, dates i citation_pdf_url
FJ Actualitzat per Ferran Jorba fa més de 9 anys
Com que no ens quedava clar ben bé què volia dir, la Cristina i jo li vam fer la pregunta, que transcrivim amb la seva resposta:
From: Darcy Dapra <darcyd@google.com>
To: Ferran Jorba <Ferran.Jorba@uab.cat>
Cc: Cristina Azorin <Cristina.Azorin@uab.cat>
Subject: Re: Inquiry regarding ddd.aub.cat (Google Scholar)
Date: Thu, 7 Jul 2016 16:12:13 -0700
Hello Ferran,
Thanks for your note, and sorry for the delay in response!
Based on your hypotheses, the first two, (a) and (b) are okay; the problem
scenario is (c). Leading zeroes aren't an issue.
For example, the paper here
view-source:http://ddd.uab.cat/record/155749?ln=ca
is a three-page PDF document, and so the page numbers seem not to reflect
the document length.
But if it would be cited with page numbers as "1-2", then the data are fine
as is.
It's just when the page numbers are inaccurate that the Scholar indexing
system has trouble--and that's why the Scholar engineers recommend removing
the page-metatags altogether if the values do not reflect what users would
cite/the accurate page numbers for the publication.
I hope that this helps to clarify, but if you have further questions, then
please let me know.
Thanks again and take care,
Darcy
Darcy Dapra | Product Partnerships | Google Scholar | darcyd@google.com
On Fri, Jul 1, 2016 at 5:52 AM, Ferran Jorba <Ferran.Jorba@uab.cat> wrote:
Dear Darcy,
we have looked at those records and we are unsure about which is our
error. We have the following hypotheses:a) The leading zeroes of the first page, that cause trouble.
b) The PDF does not have page numbers and the bibliographic record do.
c) The page numbers don't make sense because for those records (and a
few others) they are always 1-2, and this is very unlikely.As our repository does have this information and we publish it as as
citation_firstpage and citation_lastpage but you complain that "If your
repository doesn't have page number info, then it would be best to skip
these fields altogether", we think we should ask you for more details.Before we take any action, we'd better be sure about the real problem.
May you please enligthen us a little bit more?Thanks again,
Ferran Jorba
Institutional Repository computer admin
Universitat Autònoma de Barcelona
FJ Actualitzat per Ferran Jorba fa més de 9 anys
És a dir, la petició afecta (sobretot) a aquells articles de revistes publicades via web en les que la paginació no hi té sentit. Com que ara per ara els camps de primera i darrera pàgina són obligatoris en els formularis, tradicionalment s'hi ha estat posant com a primera pàgina 1 i com a darrera pàgina el nombre de pàgines que té l'article (p. ex., 1-2).
La Darcy ens ve a dir que si no és una informació útil per fer-ne una citació bibliogràfica, no hi ha de ser.
Val a dir que aquests dos camps (citation_firstpage i citation_lastpage) els agafem, respectivament, de l'etiqueta 973, $f i $l.
Per tant, aquí se'ns obren diferents possibilitats. Ara mateix se m'acudeixen aquests:
- Fer que en els formularis d'articles els camps de primera i darrera pàgina no siguin obligatoris. (Personalment, em fa una mica de por, perquè si no pot ser massa fàcil oblidar-se'n.)
- Eliminar la informació un cop el registre ja hagi passat pel formulari, perquè la validació només es verifica en el moment d'omplir les dades en el formulari.
Aquesta segona opció pot ser més o menys radical. Per complir estrictament amb el que ens demana la Darcy, en tindríem prou en eliminar-la de la 973, subcamps $f i $l, però deixar-la a la 773 $g. O la podríem eliminar també de la 773 $g.
I finalment, es tractaria de decidir amb quin criteri ho eliminem. Una manera seria sempre que la 973 $f sigui 1 (amb o sense zeros inicials), cosa que seria relativament senzill. Una altra seria amb una llista de revistes Web, però crec que seria molt i molt difícil.
FJ Actualitzat per Ferran Jorba fa més de 9 anys
- Estat ha canviat de Tancada a En curs
CA Actualitzat per Cristina Azorin fa més de 9 anys
- Assignat a ha canviat de Ferran Jorba a Montserrat Reche
Hem estat mirant les diferents opcions. Hi ha 5.280 registres en que la pàgina inicial comença per 1. No sempre és mentida. Per això hem pensat que seria millor detectar quins títols ens generen aquestes pàgines 'fictícies', per exemple, clarament la publicació UABDivulga.
Li passo la tasca a la Montse Reche per a que faci un llistat amb els títols que ella creu que es podrien netejar directament i sense problemes (la 773 i la 973 també). I un cop arreglats jo seria partidària de repetir el llistat de "registres amb 973 = 1" a veure quants queden; estic segura que el número no serà significatiu i es correspondrà bastant a la realitat.
MR Actualitzat per Montserrat Reche fa més de 9 anys
Hola,
jo he identificat d'entrada l'UAB Divulga i la revista 1611
MR Actualitzat per Montserrat Reche fa més de 9 anys
també UAB Innova fins 2015
FJ Actualitzat per Ferran Jorba fa més de 9 anys
- Assignat a ha canviat de Montserrat Reche a Ferran Jorba
Gràcies, Montse. Per tant, parlant-ne amb la Cristina, eliminaré automàticament els 973 $f i $l (que és el que es veu en el citation_firstpage i citation_lastpage), sempre que el 973 $f = 1, de les revistes:
- 1611
- UAB Divulga
- UAB Innova
- edlc_a2005nEXTRA
titol de la revista a:773 $t
NC Actualitzat per Núria Casaldaliga fa més de 9 anys
- Data de venciment ha canviat de 25-07-2016 a 31-10-2016
CA Actualitzat per Cristina Azorin fa més de 9 anys
- Assignat a ha canviat de Ferran Jorba a Javier Planella
JP Actualitzat per Javier Planella fa més de 9 anys
- Paraula clau ha canviat de JR a JR TLT
programado fix973.py, de momento busca los candidatos que cumplan:
etiqueta 773 $t contiene:
1611
UAB Divulga
UAB Innova
edlc_a2005nEXTRA
hay 1929 registros para corregir
FJ Actualitzat per Ferran Jorba fa més de 9 anys
Javier Planella va escriure:
programado fix973.py, de momento busca los candidatos que cumplan:
millor: fix973fl, no? Per si algun dia hem de corregir altres subcamps (del $x, tard o d'hora, segur que n'haurem de fer alguna normalització, per exemple).
JP Actualitzat per Javier Planella fa més de 9 anys
programado en fix973fl.py
JP Actualitzat per Javier Planella fa més de 9 anys
acabado fix973fl.py
hay 618 registros a modificar
JP Actualitzat per Javier Planella fa més de 9 anys
Añadido fix973fl ~/bin/daily.sh
JP Actualitzat per Javier Planella fa més de 9 anys
La tarea empezará a ejecutarse a partir de hoy
CA Actualitzat per Cristina Azorin fa més de 9 anys
A la reunió de seguiment d'avui decidim que també eliminarem la paginació de l'etiqueta 773 (, p.).
Per tal de ser coherents i tenir dos tipus de registres al DDD, amb la paginació correcta (a la 773 i la 973) i sense paginació. Sinó haguessin quedat un tercer tipus de registres amb paginació només a la 773.
JP Actualitzat per Javier Planella fa més de 9 anys
- Estat ha canviat de En curs a Tancada
Eliminada paginacion etiqueta 773 (, p.).
Ya estan todos los registros actualizados
CA Actualitzat per Cristina Azorin fa més de 9 anys
- Estat ha canviat de Tancada a En curs
- Assignat a ha canviat de Javier Planella a Ferran Jorba
La deixo en curs fins que el Ferran respongui a la Darcy que ja hem fet els canvis.
FJ Actualitzat per Ferran Jorba fa més de 9 anys
- Estat ha canviat de En curs a Tancada
Google sempre és més ràpid que nosaltres. Fu!
La Darcy ens ha tornat a escriure per demanar com estava la cosa. Per sort li he pogut contestar que sí, que ja està.
From: Ferran Jorba <Ferran.Jorba@uab.cat> Organization: Universitat Autonoma de Barcelona Subject: Re: Inquiry regarding ddd.aub.cat (Google Scholar) Date: Fri, 9 Dec 2016 08:45:46 +0100 To: Darcy Dapra <darcyd@google.com> CC: Cristina Azorin <Cristina.Azorin@uab.cat> Dear Darcy, sorry for being late in my response, specially because yes, we have been working on cleaning up those odd pagination issues and now it is solved. It took some time, because not all of them could be fixed automatically, and there was some manual work. We are working on other improvements, like ORCID identifiers, but it will come with another mail. Thanks again for being so insisting ;-) Ferran Jorba Institutional Repository computer admin Universitat Autònoma de Barcelona EL Thu, 8 Dec 2016 15:09:58 -0800 Darcy Dapra <darcyd@google.com> escrigué: > Hello, Ferran, > > I hope that you're doing well--it's been a while since we were last in > touch! I wonder if your colleagues might have been able to look into > the page-numbering issue for PDFs following? Perhaps this is now > resolved? > > Many thanks, and I look forward to hearing from you! > > Darcy > > Darcy Dapra | Product Partnerships | Google Scholar | > darcyd@google.com > > On Mon, Jul 11, 2016 at 1:10 PM, Darcy Dapra <darcyd@google.com> > wrote: > > > Many thanks, Ferran, and please thank your colleagues as well! > > > > Cheers, and I look forward to hearing from you again at some point > > soon, > > > > Darcy > > > > Darcy Dapra | Product Partnerships | Google Scholar | > > darcyd@google.com > > > > On Mon, Jul 11, 2016 at 5:01 AM, Ferran Jorba <Ferran.Jorba@uab.cat> > > wrote: > > > >> Dear Darcy, > >> > >> we have extracted information from the records with those odd > >> pagination values and there is a mixture of cases that cannot be > >> treated uniformly. > >> > >> Now a librarian is studying more carefully what to do with them. > >> It will take us some time (maybe a couple of weeks) before fixing > >> them. We'll write you when we finish this task. > >> > >> Best regards, > >> > >> Ferran Jorba > >> Institutional Repository computer admin > >> Universitat Autònoma de Barcelona
CA Actualitzat per Cristina Azorin fa més de 9 anys
- Prioritat ha canviat de Alta a Normal
CA Actualitzat per Cristina Azorin fa aproximadament 9 anys
- Paraula clau s'ha suprimit (
JR TLT)
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- S'ha afegit relacionat amb Tasca #4930: Google Scholar: peticions sobre citation_author i subtítol
CA Actualitzat per Cristina Azorin fa quasi 6 anys
- S'ha afegit relacionat amb Tasca #5734: Arreglar i ampliar les metadades de la pàgina HTML dels registres