Tasca #8115
tancatTEC - Alma sincronització d'usuaris
Descripció
Sol·licitud: crear alguna aplicació capaç de recòrrer un text i trobar caràcters unicode mal codificats
Tenim molts problemes amb la sincronització d'Alma a causa d'errors en la codificació de les dades que venen de Badus. Si Alma detecta un codi extrany en algun dels fitxers a importar, atura la sincronització i no importa cap registre (no escapa el registre incorrecte, sino que no importa res de res, i no informa de l'error)
Amb el Txema hem descobert que es tracta d'errors de codificació dels caràcters especials quan es genera el xml de càrrega. El problema està en que cal trobar on és l'error i cal fer-ho automàticament (no ho podem fer a ull, és impossible).
Per aquest motiu necessitem una aplicació que recorri el fitxer incorrecte i trobi els caràcters mal codificats.
Aquest és un cas (veure també imatge adjunta):
<emails>
<email preferred="true" segment_type="External">
<email_address>Montserrat.Martinez.Muuab.cat</email_address>
<email_types>
<email_type>personal</email_type>
</email_types>
</email>
Es correspon al caràcter Ñ
Unicode Hex Character Code ñ
Symbol Name: Latin Small Letter N With Tilde
Html Entity: ñ
Hex Code: ñ
Decimal Code: ñ
Unicode Group: Latin-1 Supplement
Poso en aquesta tasca els tres fitxers que han donat error per poder trobar l'error de codificació
Fitxers
BP Actualitzat per Beatriu Piera fa més de 2 anys
- S'ha actualitzat Descripció (diferències)
JP Actualitzat per Javier Planella fa més de 2 anys
Alma ejecuta un rollback que devuelve su base de datos a un estado previo cuando hay un error
Analizado el fichero alma_20231004_1.xml
Su codificación es: XML 1.0 document, Non-ISO extended-ASCII text
Por eso se muestran simbolos extraños en el fichero que ALMA no es capaz de procesar
La codificación correcta deberia: ser UTF-8 Unicode text
La mejor solución es exportar correctamente el fichero, ya que una vez codificado hay que indagar si es posible recuperar esos caracteres
Respecto a: Per aquest motiu necessitem una aplicació que recorri el fitxer incorrecte i trobi els caràcters mal codificats.
De forma automatica?
Una manera manual es abriendo el fichero con Word, y este programa indica fila y columna de esos caracteres
BP Actualitzat per Beatriu Piera fa més de 2 anys
Javier, la codificación de los ficheros es siempre la misma y se inicia con esta sentencia.
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
Así lo tenemos codificado porque así lo indica la documentación de Alma y también el fichero muestra que genera directamente la aplicación:
No entiendo tu respuesta sobre la codificación. Me lo puedes clarificar, por favor? Te refieres al empaquetamiento final de los ficheros que hacen desde Badus al generar el fichero de datos? al momento que hacen el zip? Gracias
BP Actualitzat per Beatriu Piera fa més de 2 anys
Javier, la segunda parte de tu explicación no la entendí al principio, pero ahora sí. Perfecto! Si me puedes aclarar la parte que tengo que trasladarle a Txema Morales sobre la codificación, te lo agradeceré. (ver siguiente comentario en cronologia inversa)
JP Actualitzat per Javier Planella fa més de 2 anys
al descromprimir dades_alma_20231004_050003.xml.ZIP6109937130006709-1696474898745.old
se genera el fichero:
dades_alma_20231004_050003.xml
y en la linea 2141 , columna 58 se localiza: \361:
<email_address>Montserrat.Martinez.Mu\361oz@uab.cat</email_address>
hay que asegurarse que el fichero .zip que llega de Badus este codificado en Utf-8
BP Actualitzat per Beatriu Piera fa més de 2 anys
- Estat ha canviat de En curs a Tancada
Ja hem passat als responsables de Badus les indicacions per tal que codifiquin amb UTF-8 els fitxers xml abans de ser comprimits. Tanquem aquesta petició.