Algoritmos de segmentación en el Sarlaft 4.0

Cómo hemos visto en ocasiones anteriores, la Segmentación de los Factores de Riesgo, desde el punto de vista técnico, es un problema que se puede resolver a través de diferentes enfoques o algoritmos: árboles de clasificación, técnicas de particionamiento basados en Clustering, e incluso algoritmos basados en redes neuronales, entre otros.

Si bien los algoritmos basados en particionamiento han sido los más utilizadas para abordar el proceso de Segmentación en las entidades del sistema financiero, actualmente existe un reto desde el SARLAFT 4.0 asociado a cómo aprovechar las otras técnicas existentes, las cuales de alguna manera no han sido tan ampliamente exploradas y de las cuales se hace necesario profundizar en el sustento técnico que existe detrás de cada una de ellas.

Algoritmos de segmentación

En este artículo nos vamos a enfocar principalmente en analizar los siguientes algoritmos de segmentación y cómo podrían llegar a utilizarse en el proceso de Segmentación de los Factores de Riesgo:

Algoritmos basados en Clustering
Arboles de Clasificación y Regresión
Algoritmos basados en Redes Neuronales

A continuación se detallan los algoritmos de agrupamiento más utilizados y una breve descripción de su funcionamiento.

Ilustración. Algoritmos de Agrupamiento

Algoritmo de agrupamiento basado en partición

Son métodos de agrupación que se utilizan para clasificar las observaciones, dentro de un conjunto de datos, en varios grupos según su similitud. Los algoritmos requieren que el analista especifique el número de conglomerados o clusters que se generarán. K-means y K- mediods son los dos más famosos de este tipo de algoritmos de agrupamiento. K-mediods es una mejora de K-means para tratar con datos discretos, Los algoritmos de agrupamiento típicos basados en particiones también incluyen PAM, CLARA, CLARANS.

Agrupación Jerárquica

Es una alternativa a los métodos de partición ya que no requiere que se preespecifique el número de clusters. Los métodos que engloba la agrupación jerárquica se subdividen en dos tipos dependiendo de la estrategia seguida para crear los grupos:

Algoritmos aglomerativos (bottom-up): El agrupamiento se inicia en la base del árbol, donde cada observación forma un cluster individual. Los clusters se van combinado a medida que la estructura crece hasta converger en una única “rama” central, estos se pueden dividir en las siguientes subcategorías:

Algoritmos que se derivan de la teoría de matrices
Algoritmos que se derivan de la teoría de grafos

Algoritmos divisivos (top-down): Es la estrategia opuesta a los algoritmos aglomerativos, se inicia con todas las observaciones contenidas en un mismo cluster y se suceden divisiones hasta que cada observación forma un cluster individual.

En ambos casos, los resultados pueden representarse de forma muy intuitiva en una estructura de árbol llamada dendrograma.

Algoritmo de agrupamiento basado en Modelos

La idea básica es seleccionar un modelo particular para cada grupo y encontrar el que mejor se ajuste a ese modelo. Existen principalmente dos tipos de algoritmos de agrupación basados en modelos, uno basado en el método de aprendizaje estadístico y el otro basado en el método de aprendizaje de redes neuronales.

Los algoritmos típicos, basados en el método de aprendizaje estadístico, son COBWEB y GMM. La idea central de COBWEB es construir un árbol de clasificación, basado en algunos criterios heurísticos, para realizar la agrupación jerárquica en el supuesto de que la distribución de probabilidad de cada atributo es independiente.

Los algoritmos típicos, basados en el método de aprendizaje de redes neuronales, son SOM y ART. La idea central de ART, un algoritmo incremental, es generar una nueva neurona dinámicamente para que coincida con un nuevo patrón para crear un nuevo grupo cuando las neuronas actuales no son suficientes.

Algoritmo de agrupamiento basado en Densidad

Forma de identificar clusters siguiendo el modo intuitivo en el que lo hace el cerebro humano, identificando regiones con alta densidad de observaciones separadas por regiones de baja densidad.

Este es un buen algoritmo para encontrar esquemas en un conjunto de datos. Encuentra grupos de forma arbitraria en función de la densidad de puntos de datos en diferentes regiones. Separa las regiones por áreas de baja densidad para que pueda detectar valores atípicos entre los grupos de alta densidad. Este algoritmo es mejor que k-means cuando se trata de trabajar con datos de formas extrañas.

Agrupación Difusa

Los métodos de clustering descritos hasta ahora (K-means, agrupación jerárquica, K-medoids, CLARA…) asignan cada observación únicamente a un cluster, de ahí que también se conozcan como hard clustering. Los métodos de agrupación difusa se caracterizan porque, cada observación, puede pertenecer potencialmente a varios clusters, en concreto, cada observación tiene asignado un grado de pertenencia a cada uno de los cluster.

Fuzzy c-means (FCM) es uno de los algoritmos más empleado para generar agrupaciones difusas. Se asemeja en gran medida al algoritmo de k-means, pero con dos diferencias:

El cálculo de los centroides de los clusters. La definición de centroide empleada por c-means es: la media de todas las observaciones del set de datos ponderada por la probabilidad de pertenecer a al cluster.
Devuelve para cada observación la probabilidad de pertenecer a cada cluster.

Árboles de Clasificación y Regresión

Los árboles de clasificación y regresión (CART=Classification and Regression Trees) son una alternativa al análisis tradicional de clasificación o a la predicción tradicional (regresión). Entre las ventajas de estos árboles podemos destacar su robustez a los valores atípicos (outliers), la invarianza en la estructura de sus árboles de clasificación o de regresión a transformaciones de las variables independientes, y sobre todo, su facilidad a la hora de traducir las reglas de asignación a cada nodo terminal (interpretabilidad).

Son árboles de regresión cuando la variable dependiente es continua y árboles de clasificación cuando la variable dependiente es de tipo cualitativo. De acuerdo a lo anterior, es necesario definir adecuadamente el tipo de variable objetivo que se quiere llegar a predecir (numérica o categórica) en función de poder determinar el algoritmo adecuado.

En esencia, se trata de dar con un esquema de múltiples dicotomías o bifurcaciones, anidadas en forma de árbol , de manera que siguiendo cada una de las ramas del árbol obtengamos, al final, una predicción para la clase de pertenencia (clasificación) o para el valor que toman (regresión) los individuos que cumplen con las propiedades que se han ido exigiendo en las distintas bifurcaciones.

Los árboles de decisión se construyen mediante un algoritmo conocido como segmentación recursiva, que es el proceso paso a paso para dicha construcción. Existen principalmente tres procedimientos: CHAID (Chi-Square Automatic Interaction Detector) ¡QUEST (Quick Unbiased Efficient Statistical Tree ) y CART.

Algoritmos basados en Redes Neuronales – SOM o Mapas de Kohonen

Los mapas Auto-Organizados (SOM, por sunombre en inglés Self-Organizing Maps) fueron presentados por Teuvo Kohonen en 1982, por lo que también reciben el nombre de Mapas Auto-organizados de Kohonen o Redes Neuronales de Kohonen, estos mapas están inspirados en la capacidad del cerebro humano de reconocer y extraer rasgos o características relevantes del mundo que los rodea.

La idea básica del SOM es crear una imagen de un espacio multidimensional de entrada en un espacio de salida de menor dimensión. Se trata de un modelo de dos capas de neuronas. La primera capa de entrada y la segunda de procesamiento. Las neuronas de la capa de entrada se limitan a recoger y canalizar la información. La capa de salida o procesamiento está ligada a la capa de entrada a través de los pesos sinápticos de las conexiones.

El mapa auto-organizado de Kohonen está constituido por dos niveles de neuronas, el de entrada y el de salida. Pero solo en el nivel de salida se genera procesamiento de información, por lo que recibe el nombre de capa de salida, y la red pertenece al tipo monocapa. La conectividad es total, es decir, todas las neuronas de la capa de salida reciben los estímulos de las neuronas de entrada

En las redes autoorganizadas, el entrenamiento se realiza presentando sólo entradas. Como resultado de este aprendizaje no supervisado, la red debe descubrir patrones o características significativas en los datos de entrada, e incorporarlas a sus pesos (autoorganización). Dado lo anterior, las redes pueden identificar subconjuntos de la población con características similares en función de la naturaleza de las variables de entrada al modelo.

Este tipo de procesamiento es muy útil para distintos tipos de aplicaciones: análisis de similitud de patrones de entrada; análisis de componentes principales, agrupamiento y clasificación, memoria asociativo, codificación, etc.

Si bien la norma no es específica en cuanto a qué tipos de algoritmos de segmentación pueden o deben ser usados en dichos procesos, es importante que en la etapa de Modelamiento puedan ser probados diferentes algoritmos, los cuales deben ser consistentes en cuanto a: número de variables, tipos de variables y número de registros a utilizar en el proceso de entrenamiento de los modelos.

De acuerdo a lo anterior, antes de seleccionar la técnica o algoritmo a utilizar, se hace necesario:

Definir cuáles son los variables que van a ser probadas en el proceso
Determinar la variable objetivo en caso de querer probar un algoritmo supervisado como los árboles de clasificación o regresión
Tener claras cuales van a ser las medidas de calidad para evaluar homogeneidad y heterogeneidad
Hacer un análisis previo para determinar cuáles son las señales de alerta que se pretenden identificar posterior al proceso de segmentación, las cuales deben ser definidas de acuerdo con la dinámica propia de cada entidad.

En conclusión, no existe un solo algoritmo o una sola técnica adecuada para realizar el proceso de Segmentación de los Factores de Riesgo. Cada una de las técnicas tienen sus ventajas a la hora de abordar los procesos y, debido a esto, se hace necesario hacer diferentes pruebas que permitan finalmente seleccionar un enfoque teniendo en cuenta el contexto interno y externo de la entidad, el resultado entregado por la técnica específica y la razonabilidad de los mismos en función del aporte que haga tanto en el proceso posterior de identificación de riesgos como en la implementación de señales de alerta derivadas de la segmentación.

Por: J. Sierra

¿Necesitas acompañamiento para definir los algoritmos de segmentación de tu empresa?

Déjanos tus datos y te acompañaremos en todo el proceso

Tambien podria interesarte: Segmentación SARLAFT: Conceptos claves para elegir el modelo más adecuado