Rastreo de lavado de activos para nombres con variaciones ortográficas
Análisis de datosAnalíticaBig DataInteligencia ArtificialLAFTStradata Search

Nombres con variaciones ortográficas, una fuente de falsos positivos en la validación de lavado de activos

By 7 enero, 2020 febrero 18th, 2020 No Comments
lavado de activos-hombre-pensando-nombres

La prevención del lavado de activos es un esquema de detección de información probable de Personas Naturales o Jurídicas (PNoJ), con actividades sospechosas en el lavado de capitales. Estos esquemas son de mucho interés para entidades del sector financiero, como también para las entidades estatales, que previenen y detectan los movimientos financieros de carácter ilegal. Sin embargo, debido al alto volumen de información y al constante crecimiento de esta en toda Web, es necesario tener herramientas de búsqueda que obtengan información de las relaciones financieras y laborales, y de su parentesco con PNoJ. 

 

Esta tarea, a simple vista, parece fácil de ejecutar  con buscadores clásicos como Google y Bing. El asunto con estos es que existe la probabilidad de que mucha de la información que se obtenga no sea verídica y/o relevante para la búsqueda de una persona de interés. A este tipo de búsquedas encontradas se les conoce como falsos positivos y ocasiona dificultades para el rastreo de lavado de activos. 

 

Los falsos positivos en el rastreo de lavado de activos

 

Algunas de las causas en la obtención de falsos positivos pueden ser inicialmente por el usuario, el cual puede cometer errores ortográficos o simplemente no ingresar los nombres y apellidos de la persona de interés. Aunque estas causas son propias de las acciones  del usuario, existen otras razones en torno al nombre y apellido que no necesariamente son del usuario, entre las cuales se pueden mencionar:

 

  1. Variaciones en el orden de los nombres y apellidos
  2. Posibles variaciones de escritura en nombres cuya fonética es similar, pero que cambian su ortografía, por ejemplo:  Jonathan, Jhonatan, Yonatan y Jonathan. 

 

 

Búsquedas con variaciones ortográficas en nombres propios

lavado de activos-hombre-pensando-nombresLos dos motivos de error enunciados anteriormente se dan en todos las lenguas. Aunque al día de hoy ya existen modelos validados que logran remediar estas dificultades en lenguas como el Inglés y el mandarín. Pero en el caso particular de la lengua castellana, los modelos aún se encuentran en un estado de revisión académica. 

Esta condición se puede deber, en gran parte, a las múltiples dificultades ortográficas que se presentan en la lengua castellana respecto a consonantes como: H, G, V, LL, Y, C, S y Z. Las cuales pueden ser confusas para la gente, debido a la alta similitud fonética que poseen entre ellas y sus posibles combinaciones con otras consonantes del alfabeto. Lo que ocasiona un fenómeno en la lengua castellana conocido palabras homófonas

 

Similitud fonética de nombres y apellidos

 

Dicha particularidad hace que las nombres y apellidos tienen una pronunciación idéntica, puedan variar en su ortografía. Nombre como  Bibiana y Viviana, o apellidos como Quadrado y Cuadrado, son ejemplo de ello. 

Dentro de los fenómenos particulares de estas consonantes tenemos también la G, la cual presenta dos tipos de pronunciaciones, dependiendo de la vocal que la acompañe,, como en el caso de Gabriel y Gilberto, donde el primer nombre suena con G y el segundo suena como una J.

 

La H, una letra fantasma

 

Un segundo factor clave de error es la conocida letra fantasma; la H, que genera confusiones ortográficas, debido a que no tiene una pronunciación definida en la lengua castellana, su sonido es mudo. Por esta razón, es común confundirse a la hora de escribir Teresa o Theresa; Elena o Helena, Sarai o Sarahí y Heidi o Jeidy. 

 

Todas estas dificultades en los nombres y apellidos deben ser solucionadas de manera óptima, para asegurar resultados verídicos y precisos. Siempre con el menor número de falsos positivos y hallando detalladamente todas las relaciones entre personas naturales y entidades. Con el fin de obtener una visión más amplia del nivel de confiabilidad de los diferentes perfiles, para que sea posible tomar mejores decisiones. 

 

STD_search_demo_v2

Stradata Search, el buscador que no tiene problemas con las variaciones ortográficas de nombres y apellidos en Español

 

 

 Teniendo en cuenta cada una de estas variaciones y los posibles errores de los usuarios, STRADATA desarrolló una poderosa herramienta de búsqueda llamada Stradata Search que rastrea las relaciones personales entre unos y otros, sin importar las complejidades fonéticas que se pueden encontrar respecto a los nombres y apellidos. 

lavado de activos-grafico-algoritmo-coincidencia
¿Cómo funciona? Todo esto se ha logrado mediante un potente algoritmo de búsqueda desarrollado por STRADATA, el cual identifica las variaciones mediante el mapeo de los nombres y apellidos dentro de un espacio fonético. La función de este mapeo es limitar y acotar la homofonía entre los nombres y apellidos, lo cual permite reducir el número de falsos positivos sin involucrar los resultados totalmente verídicos. 

 

El funcionamiento de este algoritmo se puede apreciar en la figura 1, donde inicialmente las palabras son mapeadas de acuerdo al espacio fonético, luego es comparado mediante métricas de similitud de palabras, dentro de la base de datos que previamente es mapeada al espacio fonético, finalmente el algoritmo proporciona el nivel de similitud entre la persona natural y las personas encontradas en la base de datos.  

 

Los resultados en el motor de búsqueda en comparación con otros buscadores similares, muestran una reducción en el número de falsos de positivos y una optimización para las búsquedas totalmente verídicas. Todo esto, con la idea de minimizar cualquier error posible en el proceso de búsqueda de relaciones sospechosas, que potencien la prevención del lavado de activos.  

 

 

Autor: E. A. León-Gómez

 

 

STD_search_demo_v2

Leave a Reply