6 Pasos para realizar un preprocesamiento de datos óptimo - Stradata
Análisis de datosAnalíticaanalyticsBig DataMinería de datosProcesamiento de datos

6 Pasos para realizar un preprocesamiento de datos óptimo

By 14 noviembre, 2019 noviembre 21st, 2019 No Comments
Preprocesamiento-de-datos

Estamos en una era donde el Big Data nos ha dado acceso a diversas fuentes de información para obtener grandes volúmenes y variedad de datos de cualquier área que queramos analizar, y las entidades financieras no se escapan de esto, ya que dentro de su área de cumplimiento deben implementar un Sistema de Administración del Riesgo de Lavado de Activos y Financiación del Terrorismo (SARLAFT), en el cual se puedan segmentar cada uno de los factores de riesgo, de acuerdo con las características particulares de cada uno de ellos. Debemos ser consciente de que las metodologías aplicadas para la segmentación serán efectivas siempre y cuando se cuente con una Base de Datos bien tratada, realizando un preprocesamiento de los datos adecuado. 

 

El realizar un  preprocesamiento de los datos es importante para poder sacar el mejor provecho a los datos provenientes de los clientes, de los productos financieros, los canales de distribución y las jurisdicciones que son susceptibles de análisis; pues la realidad es que muchas veces la información de estos se ve afectada por factores negativos como: ruidos, valores perdidos, inconsistencias, datos superfluos y/o un tamaño muy grande de datos en cualquier dimensión (número de variables e registros). 

 

Con el preprocesamiento de datos entonces, podemos aumentar la confiabilidad de la información que utilizamos para establecer las metodologías a usar en la implementación de la segmentación de los factores riesgos, requeridas en el SARLAFT. 

 
En procesos de Machine Learning o de Minería de Datos por ejemplo, el éxito dependerá en gran parte de cuidar la completitud, integridad y consistencia de los datos mediante el buen control de calidad que se les realice a los mismos. 

En otras palabras, el preprocesamiento de datos es la acción necesaria para garantizar la veracidad de la información y por lo tanto su uso sea efectivo para ayudar a las empresas a tomar decisiones acertadas

SDT_analytics_contacto_

¿Cómo hacer un óptimo preprocesamiento de datos? 

Los principales pasos para un eficiente preprocesamiento de datos engloban la limpieza de las bases de datos mediante los siguientes procesos:  

 

1. Integración de las Bases de Datos
Para asegurar una correcta integración de los datos, inicialmente nos aseguraremos de que no se ha incurrido en ninguno de los dos principales errores que se cometen al momento de unificar bases, como son: 

  • Integrar dos o más individuos, dando como resultado un individuo con características mezcladas.
  • Dejar separadas dos o más fuentes de un mismo individuo, generando varios individuos con las características distribuidas de uno solo.  Un ejemplo de este caso es la sumatoria de las compras realizadas durante un periodo determinado en un modelo RFM, la cual será menor si se considera un individuo real como dos individuos en la base de datos. 

Una de las soluciones más viables en estos casos es la descomposición de las claves de identificación de los individuos (N° de identificación, Tarjeta de crédito, N° de placa de vehículo, póliza de seguros, etc.), a fin de determinar una clave única para la unificación. Ejemplo: La cédula y el NIT, que el último esté compuesto por la cédula y un guion (-) más un dígito.  XXX.XXX.XXX (- Y)

 

2. Reconocimiento de Datos

En este paso debemos generar las estadísticas descriptivas de la BD (total, medidas, mínimo, máximo, desviación estándar, tipo, etc.), por cada variable que nos permita conocer a grandes rasgos nuestros datos.  Nos podemos apoyar en herramientas gráficas como histogramas, gráficos de barras, gráficos de cajas, de dispersión, etc; bien sea para datos numéricos o nominales, según el caso. 

 

3. Detección y tratamiento de datos faltantes y atípicos “outliers”

En el preprocesamiento de datos para detectar ruidos o vacíos en los datos es importante conocer el origen de esas inconsistencias previamente. Las más comunes son:  

  • Los valores faltantes expresan una característica relevante del individuo en estudio.
  • Valores que parecieran no existir pero que en la realidad sí existen.
  • Datos que resultan incompletos al proceder de fuentes diversas.

 

Es importante definir correctamente los formatos y posibles valores respuesta para datos nominales y restricciones de integridad en la creación de los sistemas de recolección, ya que en ocasiones estos obligan a introducir valores o formatos que luego complican la detección de los datos faltantes, como es el caso de direcciones, teléfonos, códigos postales, etc.

En el caso de valores numéricos es importante observar aquellos datos que a pesar de su veracidad distorsionan los resultados finales de los procesos de minería; como por ejemplo aquellos datos muy distantes de los valores promedios.

Después de haber detectado los datos faltantes o atípicos, podemos tratarlos de las siguientes maneras:

  • Dejarlos pasar, siempre y cuando  el proceso de Machine Learning nos lo permita. 
  • Cuando el porcentaje de valores faltantes es muy alto, resulta más viable eliminar la variable completa. 
  • Filtrar la variable eliminando los datos, aunque esto claramente sesga la información, por lo que es importante conocer de antemano la causa de los valores atípicos.
  • Reemplazar los valores faltantes: en el caso de variables numéricas se recomienda hacer uso de un valor que preserve la media o varianza; y en el caso de métricas nominales, lo mejor es suplantar por la moda. 

Una forma más automática o sofisticada es predecir el valor faltante con algoritmos de imputación mediante modelos predictivos. 

 

4. Reducción de dimensionalidad por transformación de variables

En el análisis de datos se presenta un problema popularmente conocido como “La maldición de la dimensionalidad”, y se refiere a cuando tenemos muchas variables o características para muy pocos individuos o registros, lo que impide que los procesamientos no tengan bases sustentables para la toma de decisiones.

Una de las mejores soluciones y la más utilizada para este inconveniente es la técnica de análisis de componentes principales y consiste en transformar las variables originales en otro conjunto de variables que sean independientes entre sí, este proceso se muestra gráficamente como el cambio de ejes en la proyección de los datos.  También podemos hacer uso de análisis factoriales, basados en mínimos cuadrados o en máxima verosimilitud, técnicas que se enfocan en las relaciones lineales de las variables originales.  

 

5. Discretización y numerización de las variables

Teniendo ya definido el tipo de variables que se está trabajando (Numéricas o nominales), podemos decidir si es conveniente transformarlas a nominales o numéricas bien sea el caso. 

Para transformar una variable numérica a nominal, podemos generar intervalos o “Bines”, que generen finalmente un valor ordinal con el cual podamos trabajar.

El caso inverso es menos frecuente, pero muy útil cuando el proceso de minería de datos o Machine Learning no admite datos nominales, y lo podemos resolver generando tantas variables “dummy” como posibles valores tome el atributo que estamos transformando, cuyos posibles valores respuesta sean 0 y 1, dependiendo si el registro toma o no ese valor.

 

6. Normalización del rango de los datos

Son muchos los algoritmos de procesamiento de datos en donde no es necesario normalizar las variables, como es el caso de los árboles de decisión. 

Sin embargo, en otras técnicas de Machine Learning como regresión lineal o análisis multivariantes, el rango de los datos debe ser normalizado. Un ejemplo de esto es normalizar a la misma medida cuando la variable es integrada de fuentes distintas (Dólares y pesos).

Incluso en técnicas basadas en distancias como componentes principales, es necesario la normalización del rango entre 0 y 1, el resultado de esto es que la relación entre los valores se mantenga.

Luego de finalizado los algoritmos de Machine Learning o minería de datos, es recomendable desnormalizar las variables, para una fácil comprensión y análisis de los resultados.  

Si aseguramos el cumplimiento de estos pasos, podemos mejorar los porcentajes de clasificaciones positivas y reglas de decisión con más exactitud y completitud. 

 

Autor: P. Aguilera.

En Stradata extraemos y procesamos la información para entregarle datos de valor que se conviertan en su mayor insumo. ¡Conozca todo nuestro ecosistema de soluciones y cuéntenos qué podemos hacer por usted! 

Leave a Reply