Machine Learning para la gestión de riesgo por lavado de activos y financiación al terrorismo

El lavado de activos y la financiación del terrorismo representan una gran amenaza para la estabilidad del sistema financiero y la integridad de los mercados por su carácter global y las redes utilizadas para el manejo de tales recursos, por eso es necesario realizar una apropiada gestión de riesgo LA/FT con ayuda del Machine Learning.

“Se calcula que cerca de 17.000 millones de dólares son ingresados al sistema financiero colombiano provenientes de transacciones ilícitas, más o menos un 5% del PIB de Colombia.”

En 1992, en Bogotá, se llevó a cabo la reunión de algunos ejecutivos de entidades bancarias de Colombia, en la cual abogados estadounidenses expusieron la ley de secreto bancario de 1970 y la ley de lavado de activos de 1986, siendo ésta una temática novedosa para los que estaban allí presentes. A partir de esta reunión, el sistema financiero colombiano suscribió un acuerdo interbancario en el que se establecieron compromisos sobre el conocimiento de los clientes, de colaboración con las autoridades y de establecer controles para proteger a las entidades de los entonces conocidos como ‘dineros calientes’

Así, con el Decreto 1872 de 1992, Colombia inició un largo y fructífero camino de regulación para prevenir y hacer gestión del riego LAFT hasta desarrollar, por medio de la Superintendencia Financiera, lo que hoy se conoce como la Circular SARLAFT o Circular Externa 027 de 2020,  la cual establece las instrucciones necesarias para dar cumplimiento a la Administración del riesgo de lavado de activos y financiación del terrorismo.

El sistema SARLAFT 4.0, es considerado un instrumento para que los mecanismos adoptados por las entidades operen de manera efectiva, eficiente y oportuna. Este está comprendido por las etapas de prevención, control y monitoreo de los diferentes riesgos asociados al lavado de activos y financiación del terrorismo (LAFT) sobre los diferentes factores de riesgo. 

En la etapa de control, se hace necesaria la implementación de una metodología de segmentación, que permita identificar y evaluar las características particulares de cada uno de los segmentos, asegurando que las variables de análisis definidas garanticen la consecución de las características de homogeneidad al interior de los segmentos y heterogeneidad entre ellos.

Para ello, STRADATA, integra técnicas de Machine Learning para el perfilamiento y calificación de clientes, segmentación y detección de operaciones inusuales en procesos AML/CFT y Anticorrupción.

Así, en la segmentación, se emplea una metodología que consta de diferentes etapas, como lo son la comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación e implementación. Dentro del modelado, se emplean diferentes técnicas estadísticas de segmentación (Algoritmos de segmentación) que hacen parte del aprendizaje estadístico no supervisado; que permiten inferir modelos para extraer conocimiento de conjuntos de datos, los cuales se desconocen a priori; y busca describir asociaciones y patrones entre ellos. ¡El Machine Learning más vivo que nunca!

Pero, ¿cuáles son los algoritmos más utilizados para llevar a cabo dicha segmentación?

Existe una gran variedad de algoritmos empleados para segmentar en el campo de la Ciencia de los Datos, sin embargo, por la cantidad de datos a los cuales se les aplica el proceso de segmentación y por la heterogeneidad de sus variables (numéricas y categóricas), los algoritmos más utilizados utilizados son: K-Means, Fuzzy C-Means y K-Prototypes.

K-Means

El algoritmo de k-means o k-medias es un método de agrupamiento no supervisado (clusterización) que agrupa objetos en k grupos basándose en sus características. El agrupamiento se realiza minimizando la suma de distancias entre cada objeto y el centroide de su grupo o clúster. Se suele usar la distancia cuadrática, y exige al analista determinar previamente el número de clúster (K). Este algoritmo tiene la peculiaridad que solo admite variables numéricas o categóricas dicotómicas u ordinales que hayan sido codificadas previamente.

Fuzzy c-means

El agrupamiento difuso o fuzzy clustering es una clase de algoritmos de agrupamiento donde se caracteriza la similitud de cada elemento a cada uno de los grupos. ​Esto se logra representando la similitud entre un elemento y un grupo por una función, llamada función de pertenencia, que toma valores entre cero y uno. Los valores cercanos a uno indican una mayor similitud, mientras que los cercanos a cero indican una menor similitud. Por lo tanto, el problema del agrupamiento difuso se reduce a encontrar una caracterización de este tipo que sea óptima. Dicho algoritmo exige previamente la selección del número de segmentos (k-Óptimo).

K-Prototypes

El algoritmo de K-Prototypes combina k-modes y k-means y es capaz de agrupar datos numéricos / categóricos. Define grupos basados en el número de categorías coincidentes entre puntos de datos y agrupa datos numéricos basados en la distancia euclidiana.  El K-Prototypes es deficiente frente al uso de una variable categórica, porque él asigna los centroides realizando la combinación del total de categorías para cada variable.

Por medio de algunas métricas como el coeficiente de Silueta, se logra inferir que los modelos generados con estos algoritmos, usualmente permiten cumplir con los requerimientos de la Superintendencia Financiera de presentar homogeneidad al interior de los segmentos y heterogeneidad entre ellos. Sin embargo, existen casos en los que esto no sucede, y para ello se encuentra el ingenio y el soporte del equipo de analistas de Stradata.

Bibliografía:

Por: D. Cardona


También podria intereaste el Blog de nuestro Gerente de Análitica: Algoritmos de segmentación en el Sarlaft 4.0

Algoritmos de segmentación en el Sarlaft 4.0