Análisis de datos en el SARLAFT 4.0

Estamos en una era donde el Big Data nos ha dado acceso a diversas fuentes de información para obtener grandes volúmenes y variedad de datos de cualquier área que queramos analizar. Las entidades financieras para dar cumplimiento al SARLAFT 4.0 no se escapan de esto, ya que deben implementar un Sistema de Administración del Riesgo de Lavado de Activos y Financiación del Terrorismo en el cual puedan segmentar cada uno de los factores de riesgo de acuerdo con las características particulares de cada uno de ellos. Para lograrlo debemos ser conscientes de que las metodologías aplicadas para la segmentación serán efectivas siempre y cuando se cuente con una Base de Datos bien tratada, realizando un preprocesamiento de los datos óptimo.

SDT_analytics_contacto_

Importancia de procesar tus datos

El realizar un procesamiento de los datos es importante para poder sacar el mejor provecho de la información proveniente de los clientes, de los productos financieros, los canales de distribución y las jurisdicciones que son susceptibles de análisis dentro del SARLAFT 4.0; pues la realidad es que muchas veces la información de estos se ve afectada por factores negativos como: ruidos, valores perdidos, inconsistencias, datos superfluos y/o un tamaño muy grande de datos en cualquier dimensión (número de variables e registros). 

Con el procesamiento de los datos entonces, podemos aumentar la confiabilidad de la información que utilizamos para establecer las metodologías a usar en la implementación de la segmentación de los factores riesgos, requeridas en el SARLAFT 4.0. En procesos de Machine Learning o de Minería de Datos por ejemplo, el éxito dependerá en gran parte de cuidar la completitud, integridad y consistencia de los datos mediante el buen control de calidad que se les realice a los mismos. 

En otras palabras, el procesamiento de datos es la acción necesaria para garantizar la veracidad de la información y así su uso sea efectivo para ayudar a las empresas a tomar decisiones acertadas.

6 pasos para hacer un procesamiento de datos óptimo y cumplir de manera eficiente con el SARLAFT 4.0

1. Integración de las Bases de Datos

Para asegurar una correcta integración de los datos y cumplir con los diferentes procesos AML que exige el SARLAFT 4.0, inicialmente nos aseguraremos de que no se ha incurrido en ninguno de los dos principales errores que se cometen al momento de unificar bases como son:

  • Integrar dos o más individuos, dando como resultado un individuo con características mezcladas.
  • Dejar separadas dos o más fuentes de un mismo individuo, generando varios individuos con las características distribuidas de uno solo.  Un ejemplo de este caso es la sumatoria de las compras realizadas durante un periodo determinado en un modelo RFM, la cual será menor si se considera un individuo real como dos individuos en la base de datos.

Una de las soluciones más viables en estos casos es la descomposición de las claves de identificación de los individuos (N° de identificación, Tarjeta de crédito, N° de placa de vehículo, póliza de seguros, etc.), a fin de determinar una clave única para la unificación. Ejemplo: La cédula y el NIT, que el último esté compuesto por la cédula y un guion (-) más un dígito.  XXX.XXX.XXX (- Y).

2. Reconocimiento de Datos

En este paso debemos generar las estadísticas descriptivas de la BD (total, medidas, mínimo, máximo, desviación estándar, tipo, etc.), por cada variable que nos permita conocer a grandes rasgos nuestros datos.  Nos podemos apoyar en herramientas gráficas como histogramas, gráficos de barras, gráficos de cajas, de dispersión, etc; bien sea para datos numéricos o nominales, según el caso.

3. Detección y tratamiento de datos faltantes y atípicos “outliers”

En el preprocesamiento de datos para detectar ruidos o vacíos en la información, es importante conocer el origen de esas inconsistencias previamente. Las más comunes son: 

  • Los valores faltantes expresan una característica relevante del individuo en estudio.
  • Valores que parecieran no existir pero que en la realidad sí existen.
  • Datos que resultan incompletos al proceder de fuentes diversas.

Es importante definir correctamente los formatos y posibles valores respuesta para datos nominales y restricciones de integridad en la creación de los sistemas de recolección, ya que en ocasiones estos obligan a introducir valores o formatos que luego complican la detección de los datos faltantes, como es el caso de direcciones, telefonos, códigos postales, etc.

En el caso de valores numéricos es importante observar aquellos datos que a pesar de su veracidad distorsionan los resultados finales de los procesos de minería; como por ejemplo aquellos datos muy distantes de los valores promedios.

Después de haber detectado los datos faltantes o atípicos, podemos tratarlos de las siguientes maneras:

  • Dejarlos pasar, siempre y cuando  el proceso de Machine Learning nos lo permita. 
  • Cuando el porcentaje de valores faltantes es muy alto, resulta más viable eliminar la variable completa. 
  • Filtrar la variable eliminando los datos, aunque esto claramente sesga la información, por lo que es importante conocer de antemano la causa de los valores atípicos.
  • Reemplazar los valores faltantes: en el caso de variables numéricas se recomienda hacer uso de un valor que preserve la media o varianza; y en el caso de métricas nominales, lo mejor es suplantar por la moda. 

Una forma más automática o sofisticada es predecir el valor faltante con algoritmos de imputación mediante modelos predictivos.

4. Reducción de dimensionalidad por transformación de variables

En el análisis de datos se presenta un problema popularmente conocido como “La maldición de la dimensionalidad”, y se refiere a cuando tenemos muchas variables o características para muy pocos individuos o registros, lo que impide que los procesamientos no tengan bases sustentables para la toma de decisiones.

Una de las mejores soluciones y la más utilizada para este inconveniente es la técnica de análisis de componentes principales y consiste en transformar las variables originales en otro conjunto de variables que sean independientes entre sí, este proceso se muestra gráficamente como el cambio de ejes en la proyección de los datos.  También podemos hacer uso de análisis factoriales, basados en mínimos cuadrados o en máxima verosimilitud, técnicas que se enfocan en las relaciones lineales de las variables originales. 

5. Discretización y numerización de las variables

Teniendo ya definido el tipo de variables que se está trabajando (Numéricas o nominales), podemos decidir si es conveniente transformarlas a nominales o numéricas bien sea el caso. 

Para transformar una variable numérica a nominal, podemos generar intervalos o “Bines”, que generen finalmente un valor ordinal con el cual podamos trabajar.

El caso inverso es menos frecuente, pero muy útil cuando el proceso de minería de datos o Machine Learning no admite datos nominales, y lo podemos resolver generando tantas variables “dummy” como posibles valores tome el atributo que estamos transformando, cuyos posibles valores respuesta sean 0 y 1, dependiendo si el registro toma o no ese valor.

6. Normalización del rango de los datos

Son muchos los algoritmos de procesamiento de datos en donde no es necesario normalizar las variables, como es el caso de los árboles de decisión. 

Sin embargo, en otras técnicas de Machine Learning como regresión lineal o análisis multivariantes, el rango de los datos debe ser normalizado. Un ejemplo de esto es normalizar a la misma medida cuando la variable es integrada de fuentes distintas (Dólares y pesos).

Incluso en técnicas basadas en distancias como componentes principales, es necesario la normalización del rango entre 0 y 1, el resultado de esto es que la relación entre los valores se mantenga.

Luego de finalizado los algoritmos de Machine Learning o minería de datos, es recomendable desnormalizar las variables, para una fácil comprensión y análisis de los resultados.  

Si aseguramos el cumplimiento de estos pasos, podemos mejorar los porcentajes de clasificaciones positivas y reglas de decisión con más exactitud y completitud.

Si no sabe cómo hacerlo, ¡Nosotros lo hacemos por usted!

Autor: P. Aguilera.

En Stradata extraemos y procesamos la información para entregarle datos de valor que se conviertan en el mayor insumo de su SARLAFT 4.0. ¡Conozca todo nuestro ecosistema de soluciones y cuéntenos qué podemos hacer por usted! 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *