Tasca #2355
tancatConfigurar i activar el nou model Google Scholar d'Invenio
Descripció
Schema és un nou model de metadades pel web, sembla que a la nova versió d'Invenio hi ha alguna aplicació per a fer un possible mapeig i això ens afavoriria molt per a les cerques a Google Schoolar.
Fitxers
Tasques relacionades 5 (1 oberta — 4 tancades)
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Tasca pare s'ha establert a #2439
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Tema ha canviat de Esbrinar com funciona el nou model Schema d'Invenio a Configurar i activar el nou modela Schema (Google Scholar) d'Invenio
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Data de venciment s'ha establert a 30-09-2013
NC Actualitzat per Núria Casaldaliga fa més de 12 anys
- Data de venciment ha canviat de 30-09-2013 a 18-10-2013
NC Actualitzat per Núria Casaldaliga fa més de 12 anys
- Paraula clau s'ha establert a JR
PR Actualitzat per Pere Roca fa més de 12 anys
- Data de venciment ha canviat de 18-10-2013 a 13-12-2013
- Estat ha canviat de Creada a Cal més informació
- Assignat a ha canviat de Ferran Jorba a Cristina Azorin
FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys
- Tasca pare s'ha suprimit (
#2439)
NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys
- Prioritat ha canviat de Normal a Urgent
FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys
Darrerament hi ha hagut un parell de missatges a la llista d'Invenio sobre aquest tema:
- https://www.mail-archive.com/project-invenio-general@cern.ch/msg00807.html
- https://www.mail-archive.com/project-invenio-general@cern.ch/msg00808.html
La conclussió que en trec és que sembla que es tracta de dues coses diferents. D'una banda, Invenio, en algun moment de la 1.1 ja té suport natiu pel Google Scholar Metadata:
- http://invenio-software.org/ticket/630
- http://invenio-software.org/repo/invenio/commit/?h=maint-1.1&id=bfb1e75d1e407b9e9b4430e50befd89aeae43e5a
De l'altra, sembla que hi ha això del Schema.org que, si ho entenc bé, està més relacionat amb l'HTML5 semàntic i el format de les microdades:
Ara falta confirmar que ho estic entenent bé i, si és així, decidir què ataquem primer.
CA Actualitzat per Cristina Azorin fa més de 11 anys
Missatges llista de distribució:
Existen evidencias empíricas que demuestran que el autoarchivo es actualmente el principal medio de materialización del acceso abierto (OA) al conocimiento científico, lo que convierte a los repositorios en una pieza clave para el mantenimiento de éste. Para asegurar que éstos cumplen adecuadamente su misión es fundamental conocer su presencia e impacto en la Web, especialmente en Google (motor de búsqueda por excelencia) y Google Scholar (herramienta cada vez más usada por los investigadores para buscar información científica).
Por ello, el objetivo de este mensaje es anunciaros algunas de nuestras últimas indagaciones sobre la visibilidad de los repositorios en Google y Google Scholar. En nuestro boletín Google Scholar Digest (http://googlescholardigest.blogspot.com.es) nos hemos hecho eco de dos trabajos:
- La indización de los informes del Banco Mundial en los susodichos buscadores (http://googlescholardigest.blogspot.com.es/2014/06/world-banks-policy-reports-google-scholar.html)
- La cobertura, visibilidad e impacto web de 127 repositorios de Latinoamericanos (http://googlescholardigest.blogspot.com.es/2014/06/are-latin-americanrepositories.html)
Conseguir que los repositorios estén correctamente indizados para hacer visible la producción científica, académica e institucional es responsabilidad de todos. En estos trabajos se arroja algo de luz sobre los motivos por los que los buscadores academicos de Google no son capaces de indizar fielmente dichos documentos:
- Problemas en el propio robot de Google y de sus procedimientos para recuperar los documentos indizados
- Problemas en la arquitectura de los propios documentos o de los metadatos que los representen según las exigencies de GS: carecer de resumen, problemas la denominación de los ficheros (me refiero tanto al titulo como a las extensiones .pdf), documentos escaneados como imagen y no como OCR, excesivo tamaño de los ficheros (Documents larger than 5MB), etc…
- Problemas en la arquitecturas de los sitios web que contienen los documentos (repositories, publishers): direcciones, estructura de las páginas, control de accesos, etc...
En definitiva, nuestro objetivo último es poner encima todos estos problemas, concienciar a la comunidad y ayudar a que mejore la difusión y accesibilidad del conocimiento.
Un abrazo,
Emilio Delgado López-Cózar
Hace años me preguntó un cliente ¿por qué lo de los 5 Mb? Porque Google dixit. Porque sí. Y si es mayor, a Google Books. Y si no, te aguantas.
Tiene su gracia: en su día el mundo (académico) se plegó a los designios de Garfield, ahora a los de Acharya et. al. Y el scholar de Microsoft no tiene pinta de que siga el tirón, así que...
Oferta y demanda, oferta y demanda...
Jorge Serrano
(Cristina dixit: mandé!!!)
Estimado Emilio,
Choca un tanto que la primera afirmacion del texto de presentacion de un analisis tan concienzudo y valioso como el que ha llevado a cabo vuestro grupo sea tan discutible. La declaracion de que "existen evidencias empíricas que demuestran que el autoarchivo es actualmente el principal medio de materialización del acceso abierto" es --creo-- incorrecta a menos que se especifique que se refiere expresamente a America Latina. Es un argumento interesante éste sin embargo, sobre el que me permito aportar un par de reflexiones.
El autoarchivo entendido como el proceso por el cual un autor deposita una copia de su trabajo y de los metadatos asociados al mismo en un repositorio de acceso abierto es el modelo por defecto del acceso abierto, y en su momento, al comienzo del movimiento OA, fue mayoritario en todos los ambitos geograficos. A medida no obstante que se generalizaba la renuencia de los autores a copiar los metadatos de los trabajos en los formularios de archivo de los repositorios, la variante de archivo delegado por la cual un cual un servicio de apoyo (generalmente biblioteca) se ocupaba de la descripcion de los archivos de texto completo facilitados por el autor se fue haciendo cada vez mas habitual (y es de hecho muy probable que sea ya mayoritaria tambien en determinados paises de America Latina, algo que seria interesante averiguar).
El factor principal que ha alterado la metodologia predominante de deposito de trabajos en acceso abierto es sin embargo la integracion de los repositorios con los sistemas institucionales de gestion de la informacion cientifica o sistemas CRIS (tales como Universitas XXI o Sigma CRIS en España y muchos otros en otros paises), que hace que los metadatos no sean ya tampoco procesados por la biblioteca como servicio de apoyo al archivo de los autores, sino incorporados automaticamente mediante el intercambio de informacion entre sistemas. Como resultado de este proceso evolutivo, en paises como el Reino Unido, y crecientemente en España, la inmensa mayoria de los trabajos se archiva de manera automatica, con la biblioteca asegurandose tan solo de que el archivo de texto completo facilitado por el autor este de acuerdo con las politicas de copyright de los editores. Este mecanismo, aunque sigue perteneciendo a la llamada ruta verde, dudosamente podria ser calificado como autoarchivo.
En America Latina el indice de implantacion de estos sistemas CRIS es por el momento relativamente bajo, lo que resulta en una mucha mayor fuerza para el movimiento de acceso abierto basado en la alimentacion "directa" de repositorios (probablemente siguiendo un modelo mixto de autoarchivo puro y archivo delegado). A medida que el panorama vaya evolucionando, puede ser interesante examinar el impacto de la implantacion de procesos mas automatizados en los modelos de archivo de trabajos en acceso abierto, por mucho que la peculiar representacion de la produccion cientifica latinoamericana en las anglofilas bases de datos internacionales haga mas complejo adoptar mecanismos de ingestion automatica de referencias de publicaciones (con novedades como la indexacion de SciELO por WoS gradualmente evolucionando la situacion).
En este sentido el analisis de los factores que dificultan la visibilidad en la red de los trabajos disponibles en acceso abierto en los repositorios latinoamericanos es sumamente interesante, y cabe confiar que ayude a que se pongan los medios para mejorar la situacion. Entretanto es gratificante comprobar los niveles de visibilidad reales de los contenidos de los repositorios a traves de la informacion facilitada por los modulos de estadisticas de las propias plataformas, http://www.bibliotecadigital.unicamp.br/indicadores/index.php (incluso teniendo en cuenta que Unicamp es un outlier tal como se menciona en el trabajo). Una ampliacion de esta informacion estadistica al nivel del agregador de LA Referencia, http://www.lareferencia.info/vufind/, del estilo de la que se esta haciendo en otros ambitos geograficos podria ser de gran utilidad en este aspecto.
Un saludo,
-----
Pablo de Castro
euroCRIS Board - Best Practice/DRIS Task Group Leader
CA Actualitzat per Cristina Azorin fa més de 11 anys
- S'ha actualitzat Descripció (diferències)
NC Actualitzat per Núria Casaldaliga fa més de 11 anys
- S'ha afegit Fitxer Elag2014_schema.pdf Elag2014_schema.pdf
- S'ha actualitzat Descripció (diferències)
Estava revisant les presentacions que aquest any hi ha hagut a l'ELAG i n'he trobat una que bàsicament anima a l'ús d'Schema per tal que el Google t'indexi correctament les dades. Només he mirat la presentació per sobre però com que que la Cristina està actualitzant la tasca, us la deixo aquí per si ajuda.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Estat ha canviat de Cal més informació a En curs
Hem trobat aquesta pàgina on un voluntari explica el que ha entès de les etiquetes que Google Scholar busca a les pàgines HTML per indexar-les a Scholar:
http://www.monperrus.net/martin/accurate+bibliographic+metadata+and+google+scholar
Són unes recomanacions d'incloure uns camps meta (citation_author, citation_title, etc) a la pàgina HTML. Invenio ho suporta des de la versión 1.1 i ara ho estem configurant al DDD de proves per passar-lo al de producció després.
Però no està clara la relació amb http://schema.org.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
El resultat és que ara, a capçalera de la pàgina HTML, hi sortiran, a més, metadades com aquestes (exemple tret de http://ddd.uab.cat/record/118889):
<!-- GoogleScholar --> <meta content="Casanovas, Pompeu" name="citation_author" /> <meta content="Catalonia: independent but united with Europe?" name="citation_title" /> <meta content="2012" name="citation_date" /> <meta content="info:eu-repo/semantics/article" name="citation_type" /> <meta content="info:eu-repo/semantics/publishedVersion" name="citation_type" /> <meta content="Poblet, Marta" name="citation_author" /> <meta content="The Conversation" name="citation_conference" /> <meta content="The Conversation" name="citation_journal_title" /> <meta content="https://ddd.uab.cat/pub/artpub/2012/118889/conversation_a2012m9n1iENG.pdf" name="citation_pdf_url" />
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Temàtica prevista ha canviat de Migracions i actualitzacions a OAI: servidor
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Tema ha canviat de Configurar i activar el nou modela Schema (Google Scholar) d'Invenio a Configurar i activar el nou model Google Scholar d'Invenio
- Estat ha canviat de En curs a Tancada
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Paraula clau s'ha suprimit (
JR)
FJ Actualitzat per Ferran Jorba fa quasi 11 anys
- Temàtica prevista ha canviat de OAI: servidor a Millores respecte a la producció científica de la UAB
CA Actualitzat per Cristina Azorin fa més de 10 anys
- Categoria s'ha establert a Suport a docència i recerca
FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys
- S'ha afegit relacionat amb Defecte #5245: Mendeley a Traces no funciona