Tasca #5776
tancatCàrrega d'articles d'accés obert - Comprovació duplicats abans
Descripció
L'Ignasi Labastida ens proporciona un fitxer amb articles d'accés obert i els entrarem per revisar les biblioteques.
Fitxers
CA Actualitzat per Cristina Azorin fa quasi 6 anys
- S'ha afegit Fitxer comprovacio_DOI.txt comprovacio_DOI.txt
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Dels 1748 dois, comprovats tant en els registres públics com els que no (revisats, esborrats, nodrets, etc):
- 73 ja els tenim
- 1675 no els tenim
Com ho fem? Han d'anar tots a la mateixa col·lecció de càrregues automàtiques? En tot cas, ho deixaré de matinada, que si no col·lapsaria el DDD
CA Actualitzat per Cristina Azorin fa quasi 6 anys
- Estat ha canviat de Creada a En curs
Sí Ferran, haurien d'anar tots a la col·lecció https://ddd.uab.cat/collection/revisarcaraut
Moltes gràcies!!
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Perfecte, doncs demà els carregaré a primera hora.
El fet que n'hi haguessin tants m'ha permès repassar el conversor i corregir alguns casos que no estaven ben resolts. En primer lloc, quan hi havia més d'un codi de finançament d'una sola entitat a la 536, que sortien en una sola etiqueta i separades per coma, però en un format no gaire ortodox, i que ara ja surten cadascuna en una 536 diferent. També, en les 536, en alguns casos, hi havien diacrítics mal codificats, i que ara ja sortiran bé.
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Una altra pregunta: convé afegir-hi alguna nota 500 a tots els registres, ara que ja ho podem fer (#5554)? Quina?
CA Actualitzat per Cristina Azorin fa quasi 6 anys
Gràcies Ferran, sí afegirem la nota: Càrrega feta de Scopus d'articles UAB 2019 (Gold, hybrid o Bronze) procedents de l'Observatori d'Accés Obert (càrrega maig 2020). Compte! Cal comprovar la versió permesa per l'editor en els bronze.
L'observatori d'accés obert s'actualitza 2 cops l'any per tant és previsible que durant octubre o novembre tornem a tenir un altre fitxer.
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
- Estat ha canviat de En curs a Tancada
Ja hi són tots a https://ddd.uab.cat/collection/revisarcaraut, menys dos:
- https://ddd.uab.cat/record/218225 ja hi era i deu haver detectat algun altre 035 duplicat (Invenio no em diu quin)
- https://ddd.uab.cat/record/223650 devia estar dos cops a la llista de l'Observatori, perquè segons l'històric no en consta cap altre.
Per tant, 1559 registres, que van:
CB Actualitzat per Carme Besson fa quasi 6 anys
- Estat ha canviat de Tancada a En curs
Ferran: dius que 1.675 DOIs no els tenim. d'aquests 2 no s'han pogut carregar. A continuació dius que has carregat 1.559 a la col.lecció de càrregues automàtiques. He d'entendre que la diferència entre 1.675 i 1.559 que és 116 són els DOIs que no es troben a Scopus? Si és així tenim aquests DOIs separats i ben identificats?
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Bona pregunta, efectivament. Quan tingui la llista dels no trobats, l'adjuntaré. Però no m'està resultant tan fàcil com em pensava, perquè de vegades ens van passar el doi en majúscula; Scopus el troba igualment, però queda desat en majúscula, ex:
- https://doi.org/10.1387/theoria.20652 (així és com ens ha arribat en el fitxer original)
- https://doi.org/10.1387/THEORIA.20652 (així és com ha quedat al nostre registre https://ddd.uab.cat/record/224189)
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
- S'ha afegit Fitxer dois-no-trobats-a-scopus_a2020m6d3.txt dois-no-trobats-a-scopus_a2020m6d3.txt
Aquests són els no trobats. Potser en uns dies Scopus en troba algun.
CB Actualitzat per Carme Besson fa quasi 6 anys
Gràcies, Ferran!
CA Actualitzat per Cristina Azorin fa quasi 6 anys
Us passo una adreça per a demanar a la Cristina de fer canvis globals a la col·lecció de revisar. Es pot fàcilment passar registres de les càrregues automàtiques a la carpeta de revisar de la vostra biblioteca. Cal substituir XXXX per la cerca que hagueu fet:
https://ddd.uab.cat/search?cc=revisarcaraut&sc=1&p=XXXXXXXX&ot=980&of=tm&rg=200
No cal que copieu els resultats, només que em passeu l'adreça de la cerca i em demaneu el canvi.
MJ Actualitzat per Marta Jordan fa quasi 6 anys
Hola Ferran:
Sobre la càrrega automàtica Scopus-DDD que hi ha ara al REVISARCARAUT, avui li he comentat a la Cristina que una cosa que ajudaria a poder gestionar millor la validació dels articles seria un excel amb la llista de totes les filiacions UAB que apareixen en aquests registres de REVISARCARAUT.
Per tant, podries fer el mateix que ja vas fer fa uns anys quan vam carregar els registres de PubMed al DDD? a la tasca #867 vas penjar un excel amb les filiacions UAB d'aquella càrrega.
Això crec que ens ajudaria molt perquè podrem veure les 3.000 maneres diferents com els autors posen el nom del departament i el nom de la UAB. Així podrem identificar millor quins registres ens toca processar a cada biblioteca.
Ja diràs
Merci!
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Abans que un Excel, jo faria una llista en format text, perquè es pot veure directament des del Redmine, sense obrir aplicacions externes.
Però crec que seria més profitós gestionar-ho via https://ddd.uab.cat/idautoritats.py on, justament, fa uns quants dies hi vaig deixar l'entrada del punt 7: Unificar les afiliacions ($u) dels autors (pendent). Com ho faríem? No ho sé, encara, es tracta d'escoltar totes les propostes i consensuar-ho. L'avantatge d'aquesta eina és que manté l'històric dels canvis, de manera que, un cop s'ha triat una entrada bona, ja n'informa a qui en fa la consulta, ex:
https://ddd.uab.cat/idautoritats.py/review_orcid_authors?orcid=0000-0003-3728-8215
El tema és com repartir la feina, i crec que entre tots podem tenir unes quantes idees, valorar-les i triar les més pràctiques.
MJ Actualitzat per Marta Jordan fa quasi 6 anys
Hola Ferran!
Ara ve un text llarg, eh? És el que t'explicaria si parléssim verbalment... allà va
La Cristina ja em va ensenyar aquesta opció que s'està fent servir per unificar autors i filiacions. Però la petició que et feia de l'Excel no anava encaminada a unificar les filiacions, sinó que la cosa és que ara hi ha més de 1.000 registres a REVISARCARAUT i les biblioteques ens hem d'emportar al nostre REVISAR els registres que ens toquen (els dels departaments de les nostres facultats i centres de recerca).
Per localitzar aquests registres nostres entre tots els que hi ha, la Cristina ens va dir que fessim una cerca dins de REVISARCARAUT amb el concepte o conceptes que ens interessés recuperar, i ella traslladaria els registres afectats a les col·leccions REVISAR de la biblioteca que correspongui.
La qüestió és que si jo busco a REVISARCARAUT el concepte "Departament de Matemàtiques" dins del camp filiació, em surten molts registres que, en realitat, no són tots meus: també recupero un article publicat entre un autor de veterinària UAB amb un autor del departament de matemàtiques de la UPC (per exemple).
D'altra banda, jo puc posar "departament de matemàtiques" o "departamento de matemáticas" o "Department of Mathematics" però, tot i així, no recuperaré tot el que hi ha, perquè potser un autor ha posat "Mathematics Department" o qualsevol altra variant que se li acudeixi.
Per això , l'Excel que vas fer per a la càrrega automàtica de PubMed (que pot ser un arxiu TXT o CSV si ho prefereixes) va anar molt bé en aquella càrrega, perquè allà podíem veure totes les maneres com els autors havien posat el nom del departament, i el que feiem era copiar cada variant del departament que apareixia a l'Excel, enganxar-la a la pantalla de cerca de la col·lecció REVISARCARAUT, i emportar-nos a la nostra REVISAR els registres afectats.
A mi em sembla que l'eina que esmentes, no "serveix" per a la "necessitat" que tenim les biblioteques d'identificar els nostres registres... almenys pel que vaig veure que em comentava la Cristina. Per això ella em va dir que et demanés la llista de les variants.
Després, si un cop ja tenim els registres que ens toquen a la nostra bústia REVISAR, les biblioteques hem d'utilitzar (o no) aquesta via que fa servir la UTP per unificar autors i filiacions a l'hora de validar els registres, suposo que és el que haurem de parlar. Però abans necessitem saber quins són els registres que hem de validar.
Perdona el "rollo" però t'he volgut explicar tot amb detall perquè vegis una mica la feina que volem fer ara i m'indiquis si l'eina https://ddd.uab.cat/idautoritats.py efectivament serveix per a això que necessitem o si no...
Moltes gràcies per la paciència!
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Gràcies, Marta, per l'explicació. Crec que ho he entès.
No és ben bé el mateix, perquè no ordena per institució i no elimina duplicats, però això ho podeu fer vosaltres mateixes. Això et serveix prou?
https://ddd.uab.cat/search?cc=revisarcaraut&of=tm&ot=100%u,700%u&rg=9999
No és que no m'hi vulgui posar a fer-ho jo, però si us puc donar eines perquè sigueu autònomes, millor, no?
O potser podria fer l'equivalent, ja unificant i comptant els $u, per col·leccions, i deixar-lo cada dia a punt a https://ddd.uab.cat/qualitat/? Així sempre el tindríeu al dia, n'entrin o en surtin de nous. Si això us anés bé, quines col·leccions serien?
MJ Actualitzat per Marta Jordan fa quasi 6 anys
- Estat ha canviat de En curs a Tancada
Hola Ferran!
La cerca https://ddd.uab.cat/search?cc=revisarcaraut&of=tm&ot=100%u,700%u&rg=9999 ja ens va bé!
Tanco la tasca
Merci!
MJ Actualitzat per Marta Jordan fa quasi 6 anys
- Estat ha canviat de Tancada a En curs
Hola Ferran:
Torno a obrir la tasca perquè he estat treballant aquests dies amb la cerca https://ddd.uab.cat/search?cc=revisarcaraut&of=tm&ot=100%u,700%u&rg=9999 que hem de fer servir per detectar quins articles corresponen a cada biblioteca i fer el traspàs a les col·leccions REVISAR que toqui. Això ens havia de ser útil perquè una mateixa filiació pot estar de moltes maneres diferents i ens és impossible trobar-les totes. Amb aquesta cerca, en principi el problema se solucionava.
Però després d'uns dies mirant-nos-ho, resulta que això no és així. El problema que tenim és que aquesta cerca mostra totes les filiacions dels aprox 1.300 registres que hi ha a REVISARCARAUT, a més, no s'han eliminat el duplicats (és a dir, que si en un article hi ha 3 autors del Departament de Matemàtiques de la UAB, apareix 3 vegades la filiació del Departament de Matemàtiques a la cerca).
Aquesta cerca significa la revisió d'aproximadament 14.000 entrades d'etiquetes 100 i 700. La idea era eliminar les entrades no UAB per deixar una llista llesta per treballar-hi. Però la revisió i eliminació de les filiacions no UAB (o les UAB que estan repetides vàries vegades en el mateix registre) que he estat fent aquests dies implica molta feina que ocupa molt de temps i que s'avança molt poc a poc si es fa manualment.
Després de parlar de les diferents opcions possibles amb la Carme Besson, obro la tasca de nou per demanar-te si, en aquest cas, no pots fer el mateix que vas fer fa uns anys amb la càrrega automàtica de PubMed: vas generar un llistat on apareixien només les filiacions UAB sense duplicar. No sé si recordes aquest document. Era aquest: https://wikis.bib.uab.cat/attachments/3882
Amb una llista similar a aquesta que ens vas fer per a PubMed a nosaltres ens permetrà poder posar en marxa la distribució de registres per validar. Si no, manegar una bossa de gairebé 1.300 registres amb gairebé 14.000 etiquetes 100 i 700 per revisar és una feina una mica impossible.
Moltíssimes gràcies Ferran
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Puc fer una proposta alternativa? L'objectiu seria doble: minimitzar les extraccions puntuals i manipulacions específiques, i l'altre que el sistema aprengui sol de sí mateix.
La idea seria: podríem separar-ho segons l'ISSN de les revistes?
La mecànica seria la següent: per a cada registre de la col·lecció https://ddd.uab.cat/collection/revisarcaraut, extreure'n l'ISSN, i si en alguna de les altres col·leccions de https://ddd.uab.cat/collection/revisar hi ha un registre amb aquest ISSN, canviar-lo de col·lecció.
Fem una consulta, per títol de revista, tot i que utilitzaríem l'ISSN (o també el títol, tant és):
https://ddd.uab.cat/search?cc=revisarcaraut&of=tm&ot=773__t&rg=9999
Seria aquesta informació suficient per fer-ne el repartiment automàtic? L'automatisme seria exclusivament des de https://ddd.uab.cat/collection/revisarcaraut, de manera que si a una biblioteca li caigués un registre que no li toca, el canvia i ja està.
Jo he suggerit ISSN, però potser també es podria fer per afiliació. És a dir, si a la col·lecció revisarXXX hi ha (un, més d'un o el que més en tingui) registres amb un $u YYY, moure el registre.
Òbviament, en quedarà una cua de registres no repartits. Però si d'una revista n'hi ha més d'un, només caldria fer la manipulació manual en un, perquè el següent seria automàtic.
Tot plegat seria perquè, si les càrregues automàtiques es van sovintejant, es creés un flux automàtic de distribució a partir del coneixement recent (el que està en aquest moment a revisar).
Si amb això no hi hagués prou massa crítica, podríem utilitzar ISSN de les publicacions dels grups de recerca https://ddd.uab.cat/collection/grurec.
CB Actualitzat per Carme Besson fa quasi 6 anys
Bon dia,
No tinc experiència amb el tema de càrregues automàtiques perquè a BCHG fins ara no ens ha entrat res per aquesta via... Jo diria que el tema de l'ISSN no resoldrà massa el problema ja que en una mateixa revista hi poden publicar investigadors de diverses biblioteques. Llavors a quina col·lecció aniria a parar si trobes l'ISSN en diferents col·leccions de les biblioteques? Això podria compartir un ball de registres d'un revisar a un altre i crear confusió.
En canvi, la via de la filiació la veig molt segura. Un departament o un grup de recerca, per posar un exemple, van sempre vinculats a la mateixa biblioteca.
A veure què opina la Marta.
MJ Actualitzat per Marta Jordan fa quasi 6 anys
Hola!
Exacte, el que comenta la Carme és així mateix. Crec que l'ús de l'ISSN en realitat, resoldria una petita part de la bossa: ens trobarem que la majoria de registres són de revistes comunes de Ciències, Medicina i Veterinària (i que són les propietàries de la majoria de registres de REVISARCARAUT) i, per tant, la feina de reassignació manual en cas d'errors en la distribució per a aquestes biblioteques seguiria donant feina.
I aquest sistema d'aprenentatge que comentes no es podria fer per la filiació en lloc de l'ISSN? A partir dels $u de les etiquetes 100 i 700 d'aquests 1.300 registres de REVISARCARAUT es pot fer un anàlisi de les variants de nom de cada departament, i així sabrem a quina col·lecció REVISAR toca anar. I de cara a futures càrregues automàtiques, aquesta informació ja la tindrem i el sistema podria detectar les variants de departament i centres de recerca més habituals i reassignar-les a la col·lecció que toca. Només quedarien variants que no s'hagin utilitzat abans per assignar.
Potser el que he proposat és una barbaritat, però com que parles d'establir un sistema que permeti que el DDD aprengui de cara al futur, la millor opció és que aprengui del camp $u de les 100 i 700 que és, en definitiva, el camp fonamental que determina a quina biblioteca pertany cada registre...
Merci!
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Jo crec que sí, i diria que ho tinc força a punt. Després us passo una llista de registres amb la col·lecció candidata per ser revisada, per veure si el programa l'encerta.
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
El resultat és una mica frustrant. Agafant com a base de coneixement els registres que ara mateix estan a les col·leccions REVISAR (és a dir, una mica tendre), només pot assignar-ne una tercera part, 308, mentre que de 897 no sap què fer-ne. Una mostra:
- https://ddd.uab.cat/record/222645: ?
- https://ddd.uab.cat/record/222647: ?
- https://ddd.uab.cat/record/222648: ?
- https://ddd.uab.cat/record/222649: ?
- https://ddd.uab.cat/record/222650: ?
- https://ddd.uab.cat/record/222651: ?
- https://ddd.uab.cat/record/222652: ?
- https://ddd.uab.cat/record/222653: ?
- https://ddd.uab.cat/record/222654: REVISARMED
- https://ddd.uab.cat/record/222656: ?
- https://ddd.uab.cat/record/222657: ?
- https://ddd.uab.cat/record/222658: REVISARCIE
- https://ddd.uab.cat/record/222659: ?
- https://ddd.uab.cat/record/222660: REVISARMED
- https://ddd.uab.cat/record/222661: REVISARMED
- https://ddd.uab.cat/record/222663: REVISARCIE
- https://ddd.uab.cat/record/222664: ?
- https://ddd.uab.cat/record/222665: ?
- https://ddd.uab.cat/record/222666: ?
- https://ddd.uab.cat/record/222667: ?
- https://ddd.uab.cat/record/222668: ?
- https://ddd.uab.cat/record/222669: ?
- https://ddd.uab.cat/record/222670: ?
- https://ddd.uab.cat/record/222671: REVISARMED
- https://ddd.uab.cat/record/222672: REVISARMED
- https://ddd.uab.cat/record/222674: ?
- https://ddd.uab.cat/record/222679: ?
- https://ddd.uab.cat/record/222681: ?
- https://ddd.uab.cat/record/222682: REVISARMED
- https://ddd.uab.cat/record/222683: REVISARCIE
- https://ddd.uab.cat/record/222684: ?
- https://ddd.uab.cat/record/222686: ?
- https://ddd.uab.cat/record/222687: ?
- https://ddd.uab.cat/record/222688: ?
- https://ddd.uab.cat/record/222689: ?
- https://ddd.uab.cat/record/222691: REVISARVET
- https://ddd.uab.cat/record/222694: REVISARVET
- https://ddd.uab.cat/record/222697: REVISARMED
- https://ddd.uab.cat/record/222698: ?
- https://ddd.uab.cat/record/222700: ?
- https://ddd.uab.cat/record/222701: ?
- https://ddd.uab.cat/record/222702: REVISARCIE
- https://ddd.uab.cat/record/222703: ?
- https://ddd.uab.cat/record/222705: ?
- https://ddd.uab.cat/record/222706: REVISARVET
- https://ddd.uab.cat/record/222707: ?
- https://ddd.uab.cat/record/222708: REVISARVET
- https://ddd.uab.cat/record/222709: REVISARVET
- https://ddd.uab.cat/record/222710: REVISARMED
- https://ddd.uab.cat/record/222711: ?
- https://ddd.uab.cat/record/222712: ?
- https://ddd.uab.cat/record/222713: ?
- https://ddd.uab.cat/record/222714: REVISARMED
- https://ddd.uab.cat/record/222715: ?
- https://ddd.uab.cat/record/222716: ?
- https://ddd.uab.cat/record/222717: REVISARMED
- https://ddd.uab.cat/record/222718: ?
- https://ddd.uab.cat/record/222719: REVISARCIE
També és cert que si aquestes assignacions són encertades i movem els registres de col·lecció, el programa tindrà més dades i igual és capaç de determinar-ne més. Si no, potser hauríem d'anar a les col·leccions dels grups de recerca.
En tot cas, creieu que són correctes, aquestes assignacions?
MJ Actualitzat per Marta Jordan fa quasi 6 anys
Hola Ferran!
Home... unes quantes que s'han assignat a REVISARCIE corresponen, de fet, a REVISARMED. Com funciona aquest sistema d'aprenentatge? quina referència agafa? amb el que tenim actualment a la col·lecció REVISAR de cada biblioteca?
MJ Actualitzat per Marta Jordan fa quasi 6 anys
I assignades a REVISARVET que són també de Medicina. Algunes que tenen interrogant no tenen cap filiació UAB al $u però probablement al PDF trobaríem aquesta filiació UAB allà consignada. Sempre n'hi haurà uns quants sense assignar, però si es pot repolir més, ni que siguin els departaments, ja haurem avançat molt
Marta Jordan va escriure:
Hola Ferran!
Home... unes quantes que s'han assignat a REVISARCIE corresponen, de fet, a REVISARMED. Com funciona aquest sistema d'aprenentatge? quina referència agafa? amb el que tenim actualment a la col·lecció REVISAR de cada biblioteca?
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Marta Jordan va escriure:
Home... unes quantes que s'han assignat a REVISARCIE corresponen, de fet, a REVISARMED. Com funciona aquest sistema d'aprenentatge? quina referència agafa? amb el que tenim actualment a la col·lecció REVISAR de cada biblioteca?
Ara mateix agafa totes les afiliacions de tots els registres que estan a cadascuna de les col·leccions REVISARxxx (CIE, VET, MED, etc, menys CARAUT i UTP). I per a cadascuna d'aquestes afiliacions apunta la col·lecció on té més registres (ex: Sanitat Animal, a VET; Filologia Catalana, a HUM). Aleshores, va a REVISARCARAUT i agafa totes les afiliacions de cada registre, i fa una llista de totes les col·leccions on hauria d'anar (podria anar a MED per 3 afiliacions, a VET per 2, etc), i agafa el que en té més. Si empata, agafa el primer que troba, i li assigna. Si només n'hi ha un, fàcil; aquell. Si no en té cap (p. ex. aquelles que l'afiliació només és UAB, sense més), hi deixa el ?
Clar que a totes les col·leccions REVISARxxx les afiliacions estan en brut, però alhora té l'avantatge que potser estan en brut de la mateixa manera.
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Marta Jordan va escriure:
I assignades a REVISARVET que són també de Medicina. Algunes que tenen interrogant no tenen cap filiació UAB al $u però probablement al PDF trobaríem aquesta filiació UAB allà consignada. Sempre n'hi haurà uns quants sense assignar, però si es pot repolir més, ni que siguin els departaments, ja haurem avançat molt
Una possibilitat, seria, fer primer una fase amb les afiliacions, i una segona amb ISSN; abans que es quedin sense res, potser una publicació d'arqueologia o de publicitat sí que la podria encertar, no?
CA Actualitzat per Cristina Azorin fa quasi 6 anys
Pel que veig jo la majoria tornen a ser de medicina...
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Ja sé que no m'ho heu demanat, però si en comptes de 100,700$u agafem 773$x, en proposa una proporció similar: 326, i 875 que no sap. Una mostra amb els mateixos registres:
- https://ddd.uab.cat/record/222645: ?
- https://ddd.uab.cat/record/222647: ?
- https://ddd.uab.cat/record/222648: ?
- https://ddd.uab.cat/record/222649: ?
- https://ddd.uab.cat/record/222650: ?
- https://ddd.uab.cat/record/222651: ?
- https://ddd.uab.cat/record/222652: ?
- https://ddd.uab.cat/record/222653: ?
- https://ddd.uab.cat/record/222654: ?
- https://ddd.uab.cat/record/222656: ?
- https://ddd.uab.cat/record/222657: ?
- https://ddd.uab.cat/record/222658: REVISARMED
- https://ddd.uab.cat/record/222659: ?
- https://ddd.uab.cat/record/222660: REVISARCIE
- https://ddd.uab.cat/record/222661: ?
- https://ddd.uab.cat/record/222663: ?
- https://ddd.uab.cat/record/222664: ?
- https://ddd.uab.cat/record/222665: REVISARVET
- https://ddd.uab.cat/record/222666: ?
- https://ddd.uab.cat/record/222667: ?
- https://ddd.uab.cat/record/222668: ?
- https://ddd.uab.cat/record/222669: ?
- https://ddd.uab.cat/record/222670: ?
- https://ddd.uab.cat/record/222671: ?
- https://ddd.uab.cat/record/222672: REVISARMED
- https://ddd.uab.cat/record/222674: REVISARMED
- https://ddd.uab.cat/record/222679: ?
- https://ddd.uab.cat/record/222681: ?
- https://ddd.uab.cat/record/222682: ?
- https://ddd.uab.cat/record/222683: REVISARCIE
- https://ddd.uab.cat/record/222684: ?
- https://ddd.uab.cat/record/222686: ?
- https://ddd.uab.cat/record/222687: ?
- https://ddd.uab.cat/record/222688: REVISARCIE
- https://ddd.uab.cat/record/222689: ?
- https://ddd.uab.cat/record/222691: ?
- https://ddd.uab.cat/record/222694: ?
- https://ddd.uab.cat/record/222697: ?
- https://ddd.uab.cat/record/222698: ?
- https://ddd.uab.cat/record/222700: ?
- https://ddd.uab.cat/record/222701: ?
- https://ddd.uab.cat/record/222702: REVISARVET
- https://ddd.uab.cat/record/222703: REVISARMED
- https://ddd.uab.cat/record/222705: ?
- https://ddd.uab.cat/record/222706: ?
- https://ddd.uab.cat/record/222707: ?
- https://ddd.uab.cat/record/222708: REVISARVET
- https://ddd.uab.cat/record/222709: ?
- https://ddd.uab.cat/record/222710: ?
- https://ddd.uab.cat/record/222711: ?
- https://ddd.uab.cat/record/222712: REVISARCIE
- https://ddd.uab.cat/record/222713: ?
- https://ddd.uab.cat/record/222714: ?
- https://ddd.uab.cat/record/222715: ?
- https://ddd.uab.cat/record/222716: REVISARVET
- https://ddd.uab.cat/record/222717: ?
- https://ddd.uab.cat/record/222718: ?
- https://ddd.uab.cat/record/222719: REVISARMED
Després ho provo amb 653 $a
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Quadre resum dels 100 primers registres. N'hi ha algun que us faci el pes? També pot ser iteratiu: primer un, si no l'altre, i l'altre, etc. I, tal com deia, si les altres col·leccions REVISARxxx tenen més registres, el programa l'encertarà més.
MJ Actualitzat per Marta Jordan fa quasi 6 anys
Ostres Ferran, em sap greu, però és que no quadra gaire cosa... s'assigna a CIE i VET coses que són clarament MED...
El problema és que s'agafi com a model d'aprenentatge el que tenim ara als REVISAR de cada biblioteca i la qüestió és que en aquests revisar (i ara parlo per ciències) el que tenim són càrregues de centres de recerca, per tant només hi ha filiacions d centres de recerca. És clar, la qüestió és que el que hi ha ara a REVISARCARAUT són majoritàriament articles de Departaments i Facultats (almenys pel que fa a Ciències), dels quals no tenim gairebé res a REVISARCIE. Per això el baix èxit, almenys en el nostre cas (i sospito que el mateix pot passar a MED i VET)
Un exemple de que sí que funciona la feina que fas és que a REVISARCIE tenim articles del Departament de Geografia perquè alguns investigadors del centre de recerca CREAF són també del Departament de Geografia UAB, i a l'article apareix la doble filiació. I en les proves que has anat fent, he vist com articles de Geografia s'estan consignant a CIE.
No sé si es podria fer el que et vam demanar primer, la llista de filiacions, i llavors cada biblioteca s'emporta els articles al seu REVISAR i, abans de començar a processar-los, els deixem quiets uns dies a les nostres col·leccions per tal que tu puguis endegar el procés d'aprenentatge del DDD (no sé com dir-ho) de cara a futures càrregues automàtiques.
No sé si això és possible, però si carreguem primer a cada REVISAR els articles que ens toquen, llavors sí tindràs una mostra prou representativa per a què de cara a la propera càrrega automàtica el sistema tingui una base de coneixement àmplia amb a que poder treballar.
No sé si això és possible. L'opció de fer-ho per revistes implicaria també un altre cop inversió de temps en feina manual de reassignació entre col·leccións revisar, sobretot entre MED, VET i CIE que, de fet, són les que més articles tenim a REVISARCARAUT.
Ja diràs...
Merci!
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Jo, donat que els noms de les afiliacions de les càrregues no estan gens normalitzades, més aviat agafaria una mostre més àmplia. Al programa tant li és agafar com a base d'aprenentatge 30 que 3.000.
Els grups de recerca es poden lligar a biblioteques? Perquè aleshores, en comptes d'agafar els REVISARxxx podríem agafar els https://ddd.uab.cat/collection/grurec. Encara que sigui els que són clars. Els que no es poden assignar a cap biblioteca en concret, no els utilitzem; només els obvis.
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
Marta Jordan va escriure:
No sé si es podria fer el que et vam demanar primer, la llista de filiacions, i llavors cada biblioteca s'emporta els articles al seu REVISAR i, abans de començar a processar-los, els deixem quiets uns dies a les nostres col·leccions per tal que tu puguis endegar el procés d'aprenentatge del DDD (no sé com dir-ho) de cara a futures càrregues automàtiques.
Perdona, que no t'he contestat a aquesta proposta. Sí que es pot fer, però són dades que han d'anar amunt i avall, extraccions i incorporacions, penjar-les aquí i baixar-les d'allà, que no sé ben bé com fer-ho, i requereixen unes intervencions manuals, pactar el què, el com, etc. És la mandra a tot això que fa que hi oposi aquesta resistència; sembla que no vulgui fer les extraccions, però és més la negociació de cadascun d'aquests passos, el que veig que fa tot costa amunt.
MJ Actualitzat per Marta Jordan fa més de 5 anys
Ferran Jorba va escriure:
Els grups de recerca es poden lligar a biblioteques? Perquè aleshores, en comptes d'agafar els REVISARxxx podríem agafar els https://ddd.uab.cat/collection/grurec. Encara que sigui els que són clars. Els que no es poden assignar a cap biblioteca en concret, no els utilitzem; només els obvis.
Hola Ferran! He estat uns dies desconnectada de la tasca... et contesto el teu darrer comentari. Crec que agafar el grurec enlloc del REVISARXXX no solucionaria el problema, perquè a grurec es troben els registres ja validats pels bibliotecaris, i les filiacions es troben totes unificades i posades com déu mana. (Exemple, tots els articles tindran el $u Universitat Autònoma de Barcelona. Departament de Matemàtiques)
I a REVISARCARAUT es troben les 1.000 variants de les filiacions (per exemple, "$u Autonomous University of Barcelona, Mathematics Department", o bé "$u UAB. Department of Mathematics", o "$u Departament de Matemàtiques de la Universitat Autònoma de Barcelona", o "$u Univ. Auton Barcelona. Fac. Ciències. Dept. Matemàtiques" i així fins l'infinit de possibilitats, aquest és el drama). Per això crec que el grurec no ajudarà a què el DDD aprengui a identificar a quin REVISARXXX ha d'anar cada variant, perquè el grurec només mostra la filiació correcta de cada departament, només conté una variant.
Almenys si és que he interpretat bé la teva proposta.
Potser si proves d'agafar una mostra super àmplia del REVISARXX anirà la cosa millor, no?
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Entesos. He preparat un llistat que es pot actualitzar cada dia. Ara mateix és aquest:
https://ddd.uab.cat/qualitat/afiliacions-revisarcaraut.html
Per a cada registre de la col·lecció revisarcaraut, agafa aquelles afiliacions que semblen de la UAB, i les llista alfabèticament, i al costat diu quants registres la tenen i quins són.
Ara mateix, per tant, surten registres més d'un cop. Però podria fer que si un registre ja ha sortit un cop, ja no surti més. Això funcionaria?
Aquesta solució té l'avantatge que sempre el tindríeu al dia i no haurem de fer extraccions, pujar fitxers al Redmine o editar fulls de càlcul, i per tant es pot automatitzar.
MJ Actualitzat per Marta Jordan fa més de 5 anys
Hola Ferran!
Aquest nou llistat sembla més manegable!. N'hem parlat amb la Carme Besson i portarem el tema a la propera reunió de Docència i Recerca, a veure si podem coordinar-nos entre totes les biblioteques i treballar ja sobre aquest llistat.
Merci per tot!
CA Actualitzat per Cristina Azorin fa més de 5 anys
Ferran, podria ser només de la col·lecció revisarcaraut??? Tot i que ho diu al títol no és així, mira la línia 5. He passat alguns registres ja a la bústia de les biblioteques i el llistat no ho mostra, llavors fas feina dues vegades i revises de nou el que ja havies mirat.
O potser és que no s'actualitza cada dia....
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Me n'alegro que us sembli útil. Us responc a les dues:
- El llistat (encara) no s'actualitza cada dia, però sí que és sobre la col·lecció revisarcaraut de quan ho vaig generar; abans volia saber com ho vèieu.
- Especialment perquè crec que cada registre només hauria d'aparèixer un sol cop. Ara mateix, si hi ha una afiliació, p. ex., de la Vall d'Hebron i una de la Facultat de Medicina, el registre surt dos cops. Però volia saber la vostra opinió; en general sobre el llistat, i en particular sobre la possibilitat que surti un sol cop.
- Si convingués, em resultaria trivial fer altres llistats per a altres col·leccions, si més no de les que hi apareix el codi a la 980; no tant a col·leccions que n'agrupen d'altres.
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Acabo d'actualitzar el llistat i a partir d'aquesta nit ja es s'actualitzarà cada dia.
Ja em direu si (com crec) cada registre ha d'aparèixer un sol cop.
CA Actualitzat per Cristina Azorin fa més de 5 anys
sí Ferran, serà perfecte que deixis només la primera filiació de la UAB, així ho simplifiquem. Gràcies!
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Fet! A més el llistat és una quarta part més petit: de 1.045 a 745 línies. Això sí, he eliminat la columna de quants registres el tenen perquè com que va descontant registres, no és verídic:
MJ Actualitzat per Marta Jordan fa més de 5 anys
Atenció:
Hem detectat articles duplicats que s'han carregat a través de la càrrega Scopus provinent de l'Observatori i també a través de la darrera càrrega PubMed que ha entrat. Fins ara n'hem detectat un parell, no sé si n'hi haurà més.
No sé si es pot refinar més el tema dels duplicats, o valorar parar la càrrega PubMed si els articles de l'observatori ens entren cada any a partir d'ara...
Potser, ara per ara, es podria mirar si hi ha duplicats dins de tot REVISAR per veure si n'hi ha més i eliminar-los...
Ja direu
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Gràcies Marta per fixar-t'hi i avisar.
A veure, hi ha bàsicament dues maneres de detectar duplicats: comparant identificadors forts o buscant similituds entre registres. La segona és més complicada i ara no ve al cas. El problema és que veig que molts dels els nostres identificadors forts són erronis.
Dintre dels identificadors, hi ha els que en Marc van al 035 i els que no. Els que van al 035 ens són els més útils, perquè són els que Invenio té en compte a l'hora d'afegir un registre com a nou. Entre aquests hi tenim els identificadors de Scopus, WoS, Altmetric. Però no el DOI, que va al 024. Els identificadors de Scopus, si no venen directe d'importacions, venen a partir de les consultes per citations, que fem a partir del DOI. És a dir, que tenir el DOI bé (o malament) afecta directament o indirectament la detecció de duplicats.
A la secció 4 de https://ddd.uab.cat/idregistres.py veiem que tenim molts identificadors duplicats. Però si en tenim de duplicats també vol dir (i aquí és on crec que contesto específicament el teu comentari) que pot ser que sigui perquè n'hi ha de mal posats i per tant, en no haver-hi un 035 correcte, se'ns poden colar registres duplicats com si fossin nous.
He estat cavil·lant com podem comprovar la validesa d'aquests identificadors, però crec que serà millor fer-ne una tasca específica.
CA Actualitzat per Cristina Azorin fa més de 5 anys
En aquest cas em penso que el doi és el mateix:
https://ddd.uab.cat/record/222866 Evaluation of the Integrated Intervention for Dual Problems and Early Action Among Latino Immigrants With Co-occurring Mental Health and Substance Misuse Symptoms : A Randomized Clinical Trial
(JAMA network open, Vol. 2 Núm. 1 (april 2019), p. e186927)
https://ddd.uab.cat/record/226312 Evaluation of the Integrated Intervention for Dual Problems and Early Action Among Latino Immigrants With Co-occurring Mental Health and Substance Misuse Symptoms
(JAMA Network Open, Vol. 2 (january 2019))
Jo també he anat a mirat el idregistres...
CA Actualitzat per Cristina Azorin fa més de 5 anys
La UTP ja ha acabat de fer la revisió dels registres genèrics (sota UAB). Crec que ara un 90% dels que queden són de medicina.
MJ Actualitzat per Marta Jordan fa més de 5 anys
A la BCT ja hem començat a traslladar els articles dels departaments que ens toquen a REVISARCIE. Anem fent cada dia, encara ens en queden bastants per traslladar. Quan finalitzem, avisarem a través d'aquesta tasca perquè el que quedi ja serà de la BM
MJ Actualitzat per Marta Jordan fa més de 5 anys
Hola!
Tot el que queda al llistat https://ddd.uab.cat/qualitat/afiliacions-revisarcaraut.html ja pertany a la BM, a la BCT ja hem traslladat els nostres registres i en la revisió final sembla que tot està correcte.
Ara bé, m'he fixat que al llistat https://ddd.uab.cat/qualitat/afiliacions-revisarcaraut.html hi ha 767 registres, però a REVISARCARAUT hi ha 1.341 registres. Això vol dir que NO tot el que hi ha a REVISARCARAUT s'ha d'enviar al Revisar de Medicina. De fet, he comprovat que a REVISARCARAUT acaben d'entrar registres de la càrrega setmanal PubMed que poden pertànyer a qualsevol biblioteca (el primer registre que apareix - https://ddd.uab.cat/record/230951 - és de la BCT, per exemple)
Per tant, no sé si hi ha manera de destriar els 767 registres que hi ha a https://ddd.uab.cat/qualitat/afiliacions-revisarcaraut.html i que pertànyen segur a la BM i redistribuir els 574 registres restants a les biblioteques que correspongui.
Ja direu
CB Actualitzat per Carme Besson fa més de 5 anys
Gràcies, Marta!. Aniria bé que la Virtudes avisés a la Cristina quan li vagi bé que els 767 es carreguin al Revisar de la BM
MJ Actualitzat per Marta Jordan fa més de 5 anys
Hola!
He vist que el REVISARCARAUT està a zero, i que tot el que hi havia s'ha traslladat a REVISARMED. Però el que vam analitzar del llistat https://ddd.uab.cat/qualitat/afiliacions-revisarcaraut.html només cobria 767 registres del total de 1.341 que hi havia a REVISARCARAUT.
En traslladar-ho tot a REVISARMED ara resulta que a la bústia de Medicina hi ha articles que no són de Medicina (n'he detectat uns quants així en una ullada que he donat). Faltaria per revisar i assignar a la biblioteca corresponent els aproximadament 570 articles que hi havia de diferència entre el que hi havia realment a REVISARCARAUT i el que apareixia a la llista de filiacions que ens va passar el Ferran. Caldria poder repolir i netejar la bústia de Medicina.
FJ Actualitzat per Ferran Jorba fa més de 5 anys
Vaja, ho sento; me'n vaig encarregar jo i sí que vaig veure que n'hi havia més, però vaig entendre que ja anava bé passar-los tots. Si de cas, miraré de crear un https://ddd.uab.cat/qualitat/afiliacions-revisarmed.html perquè sigui (una mica més) fàcil saber què cal treure de Medicina i tornar a https://ddd.uab.cat/collection/revisarcaraut.
VG Actualitzat per Virtudes Guzman fa més de 5 anys
Gràcies Marta i Ferran.
Ho vaig veure, però entre els pocs registres que vaig tenir temps de mirar, només vaig trobar un de ciències (que ja vaig canviar de carpeta) i dos per esborrar. Així que vaig concloure que eren gairebé tots de medicina i no vaig dir res.
Ferran, avisa'm quan estigui creat el llistat que dius, i miro de prioritzar-ho al màxim, que les altres biblioteques puguin anar fent.
Gràcies de nou.
CA Actualitzat per Cristina Azorin fa més de 5 anys
- S'ha afegit relacionat amb Tasca #5682: Neteja dels identificadors de Scopus que el programa detecta duplicats (idregistres)
FJ Actualitzat per Ferran Jorba fa més de 5 anys
- Estat ha canviat de En curs a Tancada
Entenc que amb la creació dels llistats de revisió per afiliacions per cada biblioteca a https://ddd.uab.cat/qualitat/ ja es pot tancar. Si no és així, si us plau reobriu-la explicant què hi falta. Gràcies.
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Paraula clau ha canviat de DOI NCR a DOI