Projecte

General

Perfil

Accions

Tasca #8115

tancat
BP JP

TEC - Alma sincronització d'usuaris

Tasca #8115: TEC - Alma sincronització d'usuaris

Afegit per Beatriu Piera fa més de 2 anys. Actualitzat fa més de 2 anys.

Estat:
Tancada
Prioritat:
Urgent
Assignat a:
Categoria:
Tecnologia
Inici:
05-10-2023
Data de venciment:
31-10-2023
Paraula clau:
2023, Alma, Usuaris

Descripció

Sol·licitud: crear alguna aplicació capaç de recòrrer un text i trobar caràcters unicode mal codificats

Tenim molts problemes amb la sincronització d'Alma a causa d'errors en la codificació de les dades que venen de Badus. Si Alma detecta un codi extrany en algun dels fitxers a importar, atura la sincronització i no importa cap registre (no escapa el registre incorrecte, sino que no importa res de res, i no informa de l'error)

Amb el Txema hem descobert que es tracta d'errors de codificació dels caràcters especials quan es genera el xml de càrrega. El problema està en que cal trobar on és l'error i cal fer-ho automàticament (no ho podem fer a ull, és impossible).

Per aquest motiu necessitem una aplicació que recorri el fitxer incorrecte i trobi els caràcters mal codificats.

Aquest és un cas (veure també imatge adjunta):

<emails>
<email preferred="true" segment_type="External">
<email_address>Montserrat.Martinez.Mu񯺀uab.cat</email_address>
<email_types>
<email_type>personal</email_type>
</email_types>
</email>

Es correspon al caràcter Ñ

Unicode Hex Character Code ñ
Symbol Name: Latin Small Letter N With Tilde
Html Entity: ñ
Hex Code: ñ
Decimal Code: ñ
Unicode Group: Latin-1 Supplement

Poso en aquesta tasca els tres fitxers que han donat error per poder trobar l'error de codificació


Fitxers

alma_20231004_1.zip (9.44 KB) alma_20231004_1.zip xml que ha donat error 1 Beatriu Piera, 05-10-2023 12:20
alma_al_20230928_5.zip (39.5 KB) alma_al_20230928_5.zip xml que ha donat error 3 Beatriu Piera, 05-10-2023 12:20
alma_al_20231002_6.zip (40.3 KB) alma_al_20231002_6.zip xml que ha donat error 3 Beatriu Piera, 05-10-2023 12:20
errorAlma.png (32.6 KB) errorAlma.png mostra d'un tipus d'error trobat (ñ) Beatriu Piera, 05-10-2023 12:21

BP Actualitzat per Beatriu Piera fa més de 2 anys Accions #1

JP Actualitzat per Javier Planella fa més de 2 anys Accions #2

Alma ejecuta un rollback que devuelve su base de datos a un estado previo cuando hay un error

Analizado el fichero alma_20231004_1.xml
Su codificación es: XML 1.0 document, Non-ISO extended-ASCII text
Por eso se muestran simbolos extraños en el fichero que ALMA no es capaz de procesar
La codificación correcta deberia: ser UTF-8 Unicode text

La mejor solución es exportar correctamente el fichero, ya que una vez codificado hay que indagar si es posible recuperar esos caracteres

Respecto a: Per aquest motiu necessitem una aplicació que recorri el fitxer incorrecte i trobi els caràcters mal codificats.
De forma automatica?
Una manera manual es abriendo el fichero con Word, y este programa indica fila y columna de esos caracteres

BP Actualitzat per Beatriu Piera fa més de 2 anys Accions #3

Javier, la codificación de los ficheros es siempre la misma y se inicia con esta sentencia.

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>

Así lo tenemos codificado porque así lo indica la documentación de Alma y también el fichero muestra que genera directamente la aplicación:

No entiendo tu respuesta sobre la codificación. Me lo puedes clarificar, por favor? Te refieres al empaquetamiento final de los ficheros que hacen desde Badus al generar el fichero de datos? al momento que hacen el zip? Gracias

BP Actualitzat per Beatriu Piera fa més de 2 anys Accions #4

Javier, la segunda parte de tu explicación no la entendí al principio, pero ahora sí. Perfecto! Si me puedes aclarar la parte que tengo que trasladarle a Txema Morales sobre la codificación, te lo agradeceré. (ver siguiente comentario en cronologia inversa)

JP Actualitzat per Javier Planella fa més de 2 anys Accions #5

al descromprimir dades_alma_20231004_050003.xml.ZIP6109937130006709-1696474898745.old
se genera el fichero:

dades_alma_20231004_050003.xml
y en la linea 2141 , columna 58 se localiza: \361:
<email_address>Montserrat.Martinez.Mu\</email_address>

hay que asegurarse que el fichero .zip que llega de Badus este codificado en Utf-8

BP Actualitzat per Beatriu Piera fa més de 2 anys Accions #6

  • Estat ha canviat de En curs a Tancada

Ja hem passat als responsables de Badus les indicacions per tal que codifiquin amb UTF-8 els fitxers xml abans de ser comprimits. Tanquem aquesta petició.

Accions

També disponible a: PDF Atom