Projecte

General

Perfil

Accions

Tasca #2355

tancat
FJ CA

Configurar i activar el nou model Google Scholar d'Invenio

Tasca #2355: Configurar i activar el nou model Google Scholar d'Invenio

Afegit per Ferran Jorba fa més de 12 anys. Actualitzat fa més de 10 anys.

Estat:
Tancada
Prioritat:
Urgent
Assignat a:
Categoria:
Suport a docència i recerca
Inici:
05-07-2013
Data de venciment:
13-12-2013
Paraula clau:

Descripció

Schema és un nou model de metadades pel web, sembla que a la nova versió d'Invenio hi ha alguna aplicació per a fer un possible mapeig i això ens afavoriria molt per a les cerques a Google Schoolar.

http://schema.org/

https://support.google.com/webmasters/answer/1211158


Fitxers

Elag2014_schema.pdf (9.14 MB) Elag2014_schema.pdf Núria Casaldaliga, 26-06-2014 11:56

Tasques relacionades 5 (1 oberta4 tancades)

relacionat amb DDD - Tasca #2494: Eliminar enllaç a Refwords i afegir l'opció de Mendeley més visibleTancadaFerran Jorba24-10-201319-12-2015Accions
relacionat amb DDD - Tasca #2965: Implementar schema.orgTancadaFerran Jorba27-06-201419-12-2016Accions
relacionat amb DDD - Tasca #3292: Millorar la sortida del DDD a Google ScholarTancadaTomas Fabregat06-02-2015Accions
relacionat amb DDD - Tasca #3816: Crear un sitemap per a millorar l'accés des de Google (no Google Scholar)TancadaFerran Jorba20-01-201625-06-2016Accions
relacionat amb Traces - Defecte #5245: Mendeley a Traces no funcionaEn cursFerran Jorba10-01-2019Accions

FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #1

  • Tasca pare s'ha establert a #2439

FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #2

  • Tema ha canviat de Esbrinar com funciona el nou model Schema d'Invenio a Configurar i activar el nou modela Schema (Google Scholar) d'Invenio

FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #3

  • Data de venciment s'ha establert a 30-09-2013

NC Actualitzat per Núria Casaldaliga fa més de 12 anys Accions #4

  • Data de venciment ha canviat de 30-09-2013 a 18-10-2013

NC Actualitzat per Núria Casaldaliga fa més de 12 anys Accions #5

  • Paraula clau s'ha establert a JR

PR Actualitzat per Pere Roca fa més de 12 anys Accions #6

  • Data de venciment ha canviat de 18-10-2013 a 13-12-2013
  • Estat ha canviat de Creada a Cal més informació
  • Assignat a ha canviat de Ferran Jorba a Cristina Azorin

FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys Accions #7

  • Tasca pare s'ha suprimit (#2439)

NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys Accions #8

  • Prioritat ha canviat de Normal a Urgent

FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys Accions #9

Darrerament hi ha hagut un parell de missatges a la llista d'Invenio sobre aquest tema:

La conclussió que en trec és que sembla que es tracta de dues coses diferents. D'una banda, Invenio, en algun moment de la 1.1 ja té suport natiu pel Google Scholar Metadata:

De l'altra, sembla que hi ha això del Schema.org que, si ho entenc bé, està més relacionat amb l'HTML5 semàntic i el format de les microdades:

Ara falta confirmar que ho estic entenent bé i, si és així, decidir què ataquem primer.

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #10

Missatges llista de distribució:

Existen evidencias empíricas que demuestran que el autoarchivo es actualmente el principal medio de materialización del acceso abierto (OA) al conocimiento científico, lo que convierte a los repositorios en una pieza clave para el mantenimiento de éste. Para asegurar que éstos cumplen adecuadamente su misión es fundamental conocer su presencia e impacto en la Web, especialmente en Google (motor de búsqueda por excelencia) y Google Scholar (herramienta cada vez más usada por los investigadores para buscar información científica).

Por ello, el objetivo de este mensaje es anunciaros algunas de nuestras últimas indagaciones sobre la visibilidad de los repositorios en Google y Google Scholar. En nuestro boletín Google Scholar Digest (http://googlescholardigest.blogspot.com.es) nos hemos hecho eco de dos trabajos:

- La indización de los informes del Banco Mundial en los susodichos buscadores (http://googlescholardigest.blogspot.com.es/2014/06/world-banks-policy-reports-google-scholar.html)
- La cobertura, visibilidad e impacto web de 127 repositorios de Latinoamericanos (http://googlescholardigest.blogspot.com.es/2014/06/are-latin-americanrepositories.html)

Conseguir que los repositorios estén correctamente indizados para hacer visible la producción científica, académica e institucional es responsabilidad de todos. En estos trabajos se arroja algo de luz sobre los motivos por los que los buscadores academicos de Google no son capaces de indizar fielmente dichos documentos:

- Problemas en el propio robot de Google y de sus procedimientos para recuperar los documentos indizados
- Problemas en la arquitectura de los propios documentos o de los metadatos que los representen según las exigencies de GS: carecer de resumen, problemas la denominación de los ficheros (me refiero tanto al titulo como a las extensiones .pdf), documentos escaneados como imagen y no como OCR, excesivo tamaño de los ficheros (Documents larger than 5MB), etc…
- Problemas en la arquitecturas de los sitios web que contienen los documentos (repositories, publishers): direcciones, estructura de las páginas, control de accesos, etc...

En definitiva, nuestro objetivo último es poner encima todos estos problemas, concienciar a la comunidad y ayudar a que mejore la difusión y accesibilidad del conocimiento.

Un abrazo,
Emilio Delgado López-Cózar


Hace años me preguntó un cliente ¿por qué lo de los 5 Mb? Porque Google dixit. Porque sí. Y si es mayor, a Google Books. Y si no, te aguantas.

Tiene su gracia: en su día el mundo (académico) se plegó a los designios de Garfield, ahora a los de Acharya et. al. Y el scholar de Microsoft no tiene pinta de que siga el tirón, así que...

Oferta y demanda, oferta y demanda...

Jorge Serrano

(Cristina dixit: mandé!!!)


Estimado Emilio,

Choca un tanto que la primera afirmacion del texto de presentacion de un analisis tan concienzudo y valioso como el que ha llevado a cabo vuestro grupo sea tan discutible. La declaracion de que "existen evidencias empíricas que demuestran que el autoarchivo es actualmente el principal medio de materialización del acceso abierto" es --creo-- incorrecta a menos que se especifique que se refiere expresamente a America Latina. Es un argumento interesante éste sin embargo, sobre el que me permito aportar un par de reflexiones.

El autoarchivo entendido como el proceso por el cual un autor deposita una copia de su trabajo y de los metadatos asociados al mismo en un repositorio de acceso abierto es el modelo por defecto del acceso abierto, y en su momento, al comienzo del movimiento OA, fue mayoritario en todos los ambitos geograficos. A medida no obstante que se generalizaba la renuencia de los autores a copiar los metadatos de los trabajos en los formularios de archivo de los repositorios, la variante de archivo delegado por la cual un cual un servicio de apoyo (generalmente biblioteca) se ocupaba de la descripcion de los archivos de texto completo facilitados por el autor se fue haciendo cada vez mas habitual (y es de hecho muy probable que sea ya mayoritaria tambien en determinados paises de America Latina, algo que seria interesante averiguar).

El factor principal que ha alterado la metodologia predominante de deposito de trabajos en acceso abierto es sin embargo la integracion de los repositorios con los sistemas institucionales de gestion de la informacion cientifica o sistemas CRIS (tales como Universitas XXI o Sigma CRIS en España y muchos otros en otros paises), que hace que los metadatos no sean ya tampoco procesados por la biblioteca como servicio de apoyo al archivo de los autores, sino incorporados automaticamente mediante el intercambio de informacion entre sistemas. Como resultado de este proceso evolutivo, en paises como el Reino Unido, y crecientemente en España, la inmensa mayoria de los trabajos se archiva de manera automatica, con la biblioteca asegurandose tan solo de que el archivo de texto completo facilitado por el autor este de acuerdo con las politicas de copyright de los editores. Este mecanismo, aunque sigue perteneciendo a la llamada ruta verde, dudosamente podria ser calificado como autoarchivo.

En America Latina el indice de implantacion de estos sistemas CRIS es por el momento relativamente bajo, lo que resulta en una mucha mayor fuerza para el movimiento de acceso abierto basado en la alimentacion "directa" de repositorios (probablemente siguiendo un modelo mixto de autoarchivo puro y archivo delegado). A medida que el panorama vaya evolucionando, puede ser interesante examinar el impacto de la implantacion de procesos mas automatizados en los modelos de archivo de trabajos en acceso abierto, por mucho que la peculiar representacion de la produccion cientifica latinoamericana en las anglofilas bases de datos internacionales haga mas complejo adoptar mecanismos de ingestion automatica de referencias de publicaciones (con novedades como la indexacion de SciELO por WoS gradualmente evolucionando la situacion).

En este sentido el analisis de los factores que dificultan la visibilidad en la red de los trabajos disponibles en acceso abierto en los repositorios latinoamericanos es sumamente interesante, y cabe confiar que ayude a que se pongan los medios para mejorar la situacion. Entretanto es gratificante comprobar los niveles de visibilidad reales de los contenidos de los repositorios a traves de la informacion facilitada por los modulos de estadisticas de las propias plataformas, http://www.bibliotecadigital.unicamp.br/indicadores/index.php (incluso teniendo en cuenta que Unicamp es un outlier tal como se menciona en el trabajo). Una ampliacion de esta informacion estadistica al nivel del agregador de LA Referencia, http://www.lareferencia.info/vufind/, del estilo de la que se esta haciendo en otros ambitos geograficos podria ser de gran utilidad en este aspecto.

Un saludo,

-----
Pablo de Castro
euroCRIS Board - Best Practice/DRIS Task Group Leader

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #11

NC Actualitzat per Núria Casaldaliga fa més de 11 anys Accions #12

Estava revisant les presentacions que aquest any hi ha hagut a l'ELAG i n'he trobat una que bàsicament anima a l'ús d'Schema per tal que el Google t'indexi correctament les dades. Només he mirat la presentació per sobre però com que que la Cristina està actualitzant la tasca, us la deixo aquí per si ajuda.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #13

  • Estat ha canviat de Cal més informació a En curs

Hem trobat aquesta pàgina on un voluntari explica el que ha entès de les etiquetes que Google Scholar busca a les pàgines HTML per indexar-les a Scholar:

http://www.monperrus.net/martin/accurate+bibliographic+metadata+and+google+scholar

Són unes recomanacions d'incloure uns camps meta (citation_author, citation_title, etc) a la pàgina HTML. Invenio ho suporta des de la versión 1.1 i ara ho estem configurant al DDD de proves per passar-lo al de producció després.

Però no està clara la relació amb http://schema.org.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #14

El resultat és que ara, a capçalera de la pàgina HTML, hi sortiran, a més, metadades com aquestes (exemple tret de http://ddd.uab.cat/record/118889):

<!-- GoogleScholar -->
<meta content="Casanovas, Pompeu" name="citation_author" />
<meta content="Catalonia: independent but united with Europe?" name="citation_title" />
<meta content="2012" name="citation_date" />
<meta content="info:eu-repo/semantics/article" name="citation_type" />
<meta content="info:eu-repo/semantics/publishedVersion" name="citation_type" />
<meta content="Poblet, Marta" name="citation_author" />
<meta content="The Conversation" name="citation_conference" />
<meta content="The Conversation" name="citation_journal_title" />
<meta content="https://ddd.uab.cat/pub/artpub/2012/118889/conversation_a2012m9n1iENG.pdf" name="citation_pdf_url" />

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #15

  • Temàtica prevista ha canviat de Migracions i actualitzacions a OAI: servidor

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #16

  • Tema ha canviat de Configurar i activar el nou modela Schema (Google Scholar) d'Invenio a Configurar i activar el nou model Google Scholar d'Invenio
  • Estat ha canviat de En curs a Tancada

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #17

  • Paraula clau s'ha suprimit (JR)

FJ Actualitzat per Ferran Jorba fa quasi 11 anys Accions #18

  • Temàtica prevista ha canviat de OAI: servidor a Millores respecte a la producció científica de la UAB

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #19

  • Categoria s'ha establert a Suport a docència i recerca

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #20

  • S'ha afegit relacionat amb Defecte #5245: Mendeley a Traces no funciona
Accions

També disponible a: PDF Atom