Projecte

General

Perfil

Accions

Tasca #4122

tancat
FJ FJ

Google Scholar meta tags: eliminar les paginacions no rellevants

Tasca #4122: Google Scholar meta tags: eliminar les paginacions no rellevants

Afegit per Ferran Jorba fa més de 9 anys. Actualitzat fa aproximadament 9 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Suport a docència i recerca
Inici:
24-05-2016
Data de venciment:
31-10-2016
Paraula clau:

Descripció

La nostra amiga Darcy ens ha tornat a escriure:

From: Darcy Dapra <>
To: Ferran Jorba <>
Cc: Cristina Azorin <>
Subject: Re: Inquiry regarding ddd.aub.cat (Google Scholar)
Date: Tue, 28 Jun 2016 10:39:31 -0700

Hello again, Ferran!

Really sorry for yet one more quick request, but the Scholar engineers
noticed the following, and they're wondering if you might be able to have a
look?

See for example:

view-source:http://ddd.uab.cat/record/155749?ln=ca
<https://www.google.com/url?q=http://ddd.uab.cat/record/155749?ln%3Dca&sa=D&usg=AFQjCNGeqS_cCAous1gR6DR6p1AkyiYUxg>

<meta content="0001" name="citation_firstpage" />
<meta content="2" name="citation_lastpage" />

view-source:http://ddd.uab.cat/record/155741?ln=ca
<https://www.google.com/url?q=http://ddd.uab.cat/record/155741?ln%3Dca&sa=D&usg=AFQjCNFuD1Cs4E_YhukDeK3dC-D1qE_Wnw>

<meta content="0001" name="citation_firstpage" />
<meta content="2" name="citation_lastpage" />

If your repository doesn't have page number info, then it would be best to
skip these fields altogether. Would that be possible?

And then, with that adjustment, all should be good to go! (Again sorry for
so much email; once all is in place, though, Scholar should index your
content beautifully.)

Cheers, and hope that you are doing well,

Darcy


Tasques relacionades 3 (0 obertes3 tancades)

relacionat amb DDD - Tasca #4930: Google Scholar: peticions sobre citation_author i subtítolTancadaFerran Jorba26-02-201811-06-2018Accions
relacionat amb DDD - Tasca #5734: Arreglar i ampliar les metadades de la pàgina HTML dels registresTancadaCristina Azorin30-04-202017-12-2020Accions
copiada des de DDD - Tasca #4030: Google Scholar meta tags: separar autors d'institucions, dates i citation_pdf_urlTancadaFerran Jorba24-05-201625-07-2016Accions

FJ Actualitzat per Ferran Jorba fa més de 9 anys Accions #1

  • S'ha afegit copiada des de Tasca #4030: Google Scholar meta tags: separar autors d'institucions, dates i citation_pdf_url

FJ Actualitzat per Ferran Jorba fa més de 9 anys Accions #2

Com que no ens quedava clar ben bé què volia dir, la Cristina i jo li vam fer la pregunta, que transcrivim amb la seva resposta:

From: Darcy Dapra <>
To: Ferran Jorba <>
Cc: Cristina Azorin <>
Subject: Re: Inquiry regarding ddd.aub.cat (Google Scholar)
Date: Thu, 7 Jul 2016 16:12:13 -0700

Hello Ferran,

Thanks for your note, and sorry for the delay in response!

Based on your hypotheses, the first two, (a) and (b) are okay; the problem
scenario is (c). Leading zeroes aren't an issue.

For example, the paper here

view-source:http://ddd.uab.cat/record/155749?ln=ca

is a three-page PDF document, and so the page numbers seem not to reflect
the document length.

But if it would be cited with page numbers as "1-2", then the data are fine
as is.

It's just when the page numbers are inaccurate that the Scholar indexing
system has trouble--and that's why the Scholar engineers recommend removing
the page-metatags altogether if the values do not reflect what users would
cite/the accurate page numbers for the publication.

I hope that this helps to clarify, but if you have further questions, then
please let me know.

Thanks again and take care,

Darcy

Darcy Dapra | Product Partnerships | Google Scholar |

On Fri, Jul 1, 2016 at 5:52 AM, Ferran Jorba <> wrote:

Dear Darcy,

we have looked at those records and we are unsure about which is our
error. We have the following hypotheses:

a) The leading zeroes of the first page, that cause trouble.
b) The PDF does not have page numbers and the bibliographic record do.
c) The page numbers don't make sense because for those records (and a
few others) they are always 1-2, and this is very unlikely.

As our repository does have this information and we publish it as as
citation_firstpage and citation_lastpage but you complain that "If your
repository doesn't have page number info, then it would be best to skip
these fields altogether", we think we should ask you for more details.

Before we take any action, we'd better be sure about the real problem.
May you please enligthen us a little bit more?

Thanks again,

Ferran Jorba
Institutional Repository computer admin
Universitat Autònoma de Barcelona

FJ Actualitzat per Ferran Jorba fa més de 9 anys Accions #3

És a dir, la petició afecta (sobretot) a aquells articles de revistes publicades via web en les que la paginació no hi té sentit. Com que ara per ara els camps de primera i darrera pàgina són obligatoris en els formularis, tradicionalment s'hi ha estat posant com a primera pàgina 1 i com a darrera pàgina el nombre de pàgines que té l'article (p. ex., 1-2).

La Darcy ens ve a dir que si no és una informació útil per fer-ne una citació bibliogràfica, no hi ha de ser.

Val a dir que aquests dos camps (citation_firstpage i citation_lastpage) els agafem, respectivament, de l'etiqueta 973, $f i $l.

Per tant, aquí se'ns obren diferents possibilitats. Ara mateix se m'acudeixen aquests:

  1. Fer que en els formularis d'articles els camps de primera i darrera pàgina no siguin obligatoris. (Personalment, em fa una mica de por, perquè si no pot ser massa fàcil oblidar-se'n.)
  2. Eliminar la informació un cop el registre ja hagi passat pel formulari, perquè la validació només es verifica en el moment d'omplir les dades en el formulari.

Aquesta segona opció pot ser més o menys radical. Per complir estrictament amb el que ens demana la Darcy, en tindríem prou en eliminar-la de la 973, subcamps $f i $l, però deixar-la a la 773 $g. O la podríem eliminar també de la 773 $g.

I finalment, es tractaria de decidir amb quin criteri ho eliminem. Una manera seria sempre que la 973 $f sigui 1 (amb o sense zeros inicials), cosa que seria relativament senzill. Una altra seria amb una llista de revistes Web, però crec que seria molt i molt difícil.

FJ Actualitzat per Ferran Jorba fa més de 9 anys Accions #4

  • Estat ha canviat de Tancada a En curs

CA Actualitzat per Cristina Azorin fa més de 9 anys Accions #5

  • Assignat a ha canviat de Ferran Jorba a Montserrat Reche

Hem estat mirant les diferents opcions. Hi ha 5.280 registres en que la pàgina inicial comença per 1. No sempre és mentida. Per això hem pensat que seria millor detectar quins títols ens generen aquestes pàgines 'fictícies', per exemple, clarament la publicació UABDivulga.

Li passo la tasca a la Montse Reche per a que faci un llistat amb els títols que ella creu que es podrien netejar directament i sense problemes (la 773 i la 973 també). I un cop arreglats jo seria partidària de repetir el llistat de "registres amb 973 = 1" a veure quants queden; estic segura que el número no serà significatiu i es correspondrà bastant a la realitat.

MR Actualitzat per Montserrat Reche fa més de 9 anys Accions #7

Hola,

jo he identificat d'entrada l'UAB Divulga i la revista 1611

MR Actualitzat per Montserrat Reche fa més de 9 anys Accions #8

també UAB Innova fins 2015

FJ Actualitzat per Ferran Jorba fa més de 9 anys Accions #9

  • Assignat a ha canviat de Montserrat Reche a Ferran Jorba

Gràcies, Montse. Per tant, parlant-ne amb la Cristina, eliminaré automàticament els 973 $f i $l (que és el que es veu en el citation_firstpage i citation_lastpage), sempre que el 973 $f = 1, de les revistes:

  • 1611
  • UAB Divulga
  • UAB Innova
  • edlc_a2005nEXTRA

titol de la revista a:773 $t

NC Actualitzat per Núria Casaldaliga fa més de 9 anys Accions #10

  • Data de venciment ha canviat de 25-07-2016 a 31-10-2016

CA Actualitzat per Cristina Azorin fa més de 9 anys Accions #11

  • Assignat a ha canviat de Ferran Jorba a Javier Planella

JP Actualitzat per Javier Planella fa més de 9 anys Accions #12

  • Paraula clau ha canviat de JR a JR TLT

programado fix973.py, de momento busca los candidatos que cumplan:
etiqueta 773 $t contiene:
1611
UAB Divulga
UAB Innova
edlc_a2005nEXTRA

hay 1929 registros para corregir

FJ Actualitzat per Ferran Jorba fa més de 9 anys Accions #13

Javier Planella va escriure:

programado fix973.py, de momento busca los candidatos que cumplan:

millor: fix973fl, no? Per si algun dia hem de corregir altres subcamps (del $x, tard o d'hora, segur que n'haurem de fer alguna normalització, per exemple).

JP Actualitzat per Javier Planella fa més de 9 anys Accions #14

programado en fix973fl.py

JP Actualitzat per Javier Planella fa més de 9 anys Accions #15

acabado fix973fl.py
hay 618 registros a modificar

JP Actualitzat per Javier Planella fa més de 9 anys Accions #16

Añadido fix973fl ~/bin/daily.sh

JP Actualitzat per Javier Planella fa més de 9 anys Accions #17

La tarea empezará a ejecutarse a partir de hoy

CA Actualitzat per Cristina Azorin fa més de 9 anys Accions #18

A la reunió de seguiment d'avui decidim que també eliminarem la paginació de l'etiqueta 773 (, p.).

Per tal de ser coherents i tenir dos tipus de registres al DDD, amb la paginació correcta (a la 773 i la 973) i sense paginació. Sinó haguessin quedat un tercer tipus de registres amb paginació només a la 773.

JP Actualitzat per Javier Planella fa més de 9 anys Accions #19

  • Estat ha canviat de En curs a Tancada

Eliminada paginacion etiqueta 773 (, p.).
Ya estan todos los registros actualizados

CA Actualitzat per Cristina Azorin fa més de 9 anys Accions #20

  • Estat ha canviat de Tancada a En curs
  • Assignat a ha canviat de Javier Planella a Ferran Jorba

La deixo en curs fins que el Ferran respongui a la Darcy que ja hem fet els canvis.

FJ Actualitzat per Ferran Jorba fa més de 9 anys Accions #21

  • Estat ha canviat de En curs a Tancada

Google sempre és més ràpid que nosaltres. Fu!

La Darcy ens ha tornat a escriure per demanar com estava la cosa. Per sort li he pogut contestar que sí, que ja està.

From: Ferran Jorba <Ferran.Jorba@uab.cat>
Organization: Universitat Autonoma de Barcelona
Subject: Re: Inquiry regarding ddd.aub.cat (Google Scholar)
Date: Fri, 9 Dec 2016 08:45:46 +0100
To: Darcy Dapra <darcyd@google.com>
CC: Cristina Azorin <Cristina.Azorin@uab.cat>

Dear Darcy,

sorry for being late in my response, specially because yes, we have
been working on cleaning up those odd pagination issues and now it is
solved. It took some time, because not all of them could be fixed
automatically, and there was some manual work.

We are working on other improvements, like ORCID identifiers, but it
will come with another mail.

Thanks again for being so insisting ;-)

Ferran Jorba
Institutional Repository computer admin
Universitat Autònoma de Barcelona

EL Thu, 8 Dec 2016 15:09:58 -0800
Darcy Dapra <darcyd@google.com> escrigué:

> Hello, Ferran,
> 
> I hope that you're doing well--it's been a while since we were last in
> touch!  I wonder if your colleagues might have been able to look into
> the page-numbering issue for PDFs following?  Perhaps this is now
> resolved?
> 
> Many thanks, and I look forward to hearing from you!
> 
> Darcy
> 
> Darcy Dapra | Product Partnerships | Google Scholar |
> darcyd@google.com
> 
> On Mon, Jul 11, 2016 at 1:10 PM, Darcy Dapra <darcyd@google.com>
> wrote:
> 
> > Many thanks, Ferran, and please thank your colleagues as well!
> >
> > Cheers, and I look forward to hearing from you again at some point
> > soon,
> >
> > Darcy
> >
> > Darcy Dapra | Product Partnerships | Google Scholar |
> > darcyd@google.com
> >
> > On Mon, Jul 11, 2016 at 5:01 AM, Ferran Jorba <Ferran.Jorba@uab.cat>
> > wrote:
> >
> >> Dear Darcy,
> >>
> >> we have extracted information from the records with those odd
> >> pagination values and there is a mixture of cases that cannot be
> >> treated uniformly.
> >>
> >> Now a librarian is studying more carefully what to do with them.
> >> It will take us some time (maybe a couple of weeks) before fixing
> >> them. We'll write you when we finish this task.
> >>
> >> Best regards,
> >>
> >> Ferran Jorba
> >> Institutional Repository computer admin
> >> Universitat Autònoma de Barcelona

CA Actualitzat per Cristina Azorin fa més de 9 anys Accions #22

  • Prioritat ha canviat de Alta a Normal

CA Actualitzat per Cristina Azorin fa aproximadament 9 anys Accions #23

  • Paraula clau s'ha suprimit (JR TLT)

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #24

  • S'ha afegit relacionat amb Tasca #4930: Google Scholar: peticions sobre citation_author i subtítol

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #25

  • S'ha afegit relacionat amb Tasca #5734: Arreglar i ampliar les metadades de la pàgina HTML dels registres
Accions

També disponible a: PDF Atom