Ir al contenido
Aml | Stradata
Aml | Stradata

  • Nosotros
  • Soluciones para AML
    • Stradata Search
    • Stradata Case Manager
    • Stradata Analytics
    • Stradata ExDom
    • Stradata Due Diligence
    • Stradata Risk Scoring
    • Stradata News
    • Stradata SOVI
    • Stradata Segmenter
    • Stradata Name Finder
    • Stradata Matriz de riesgo
  • BPO para AML
  • Blog
  • Eventos
  • Casos de Éxito
  • Recursos
  • Diplomado
  • Contáctanos
Aml | Stradata
Aml | Stradata

  • Actualiza tus datos
  • Actualización SARLAFT
  • Aviso de Privacidad
  • Blog
  • BPO para AML
  • Casos de Éxito
  • Checklist SAGRILAFT
  • Cierre de preinscripciones eventos
  • Contactanos
  • Demostración Stradata Search
  • Diplomado
  • Eventos
  • Facilitar el proceso de detección de alertas y operaciones inusuales con STRADATA Analytics
  • Gracias
  • Gracias-Preinscripción
  • Home
  • Implementación del SICOF consultoría por horas
  • Implementación del SICOF estándar
  • Implementación del SICOF personalizado
  • Implementacion_SICOF
  • Informe CRM
  • Mejores prácticas para proyectos de segmentación SAGRILAFT
  • Nosotros
  • Política de privacidad
  • Política de tratamiento de la información personal
  • Recursos
  • Soluciones para AML
  • Stradata Analytics
  • Stradata Case Manager
  • Stradata Due Diligence
  • Stradata ExDom
  • Stradata Matriz de riesgo
  • Stradata Name Finder
  • Stradata News
  • Stradata Risk Scoring
  • Stradata Search
  • Stradata Segmenter
  • Stradata SOVI
  • Talleres y seminarios

Algoritmos de segmentación en el Sarlaft 4.0

/ SARLAFT 4.0, Segmentación / Por Aml Stradata

Cómo hemos visto en ocasiones anteriores, la Segmentación de los Factores de Riesgo, desde el punto de vista técnico, es un problema que se puede resolver a través de diferentes enfoques o algoritmos: árboles de clasificación, técnicas de particionamiento basados en Clustering, e incluso algoritmos basados en redes neuronales, entre otros.

Si bien los algoritmos basados en particionamiento han sido los más utilizadas para abordar el proceso de Segmentación en las entidades del sistema financiero, actualmente existe un reto desde el SARLAFT 4.0  asociado a cómo aprovechar las otras técnicas existentes, las cuales de alguna manera no han sido tan ampliamente exploradas y de las cuales se hace necesario profundizar en el sustento técnico que existe detrás de cada una de ellas.

Algoritmos de segmentación 

En este artículo nos vamos a enfocar principalmente en analizar los siguientes algoritmos de segmentación y cómo podrían llegar a utilizarse en el proceso de Segmentación de los Factores de Riesgo:

  • Algoritmos basados en Clustering
  • Arboles de Clasificación y Regresión
  • Algoritmos basados en Redes Neuronales

A continuación se detallan los algoritmos de agrupamiento más utilizados y una breve descripción de su funcionamiento.

Segmentación de los Factores de Riesgo

Ilustración. Algoritmos de Agrupamiento

Algoritmo de agrupamiento basado en partición

Son métodos de agrupación que se utilizan para clasificar las observaciones, dentro de un conjunto de datos, en varios grupos según su similitud. Los algoritmos requieren que el analista especifique el número de conglomerados o clusters que se generarán. K-means y K- mediods son ​​los dos más famosos de este tipo de algoritmos de agrupamiento. K-mediods es una mejora de K-means para tratar con datos discretos, Los algoritmos de agrupamiento típicos basados ​​en particiones también incluyen PAM, CLARA, CLARANS.

Agrupación Jerárquica

Es una alternativa a los métodos de partición ya que no requiere que se preespecifique el número de clusters. Los métodos que engloba la agrupación jerárquica se subdividen en dos tipos dependiendo de la estrategia seguida para crear los grupos:

Algoritmos aglomerativos (bottom-up): El agrupamiento se inicia en la base del árbol, donde cada observación forma un cluster individual. Los clusters se van combinado a medida que la estructura crece hasta converger en una única “rama” central, estos se pueden dividir en las siguientes subcategorías:

  • Algoritmos que se derivan de la teoría de matrices
  • Algoritmos que se derivan de la teoría de grafos

Algoritmos divisivos (top-down): Es la estrategia opuesta a los algoritmos aglomerativos, se inicia con todas las observaciones contenidas en un mismo cluster y se suceden divisiones hasta que cada observación forma un cluster individual.

En ambos casos, los resultados pueden representarse de forma muy intuitiva en una estructura de árbol llamada dendrograma.

Algoritmo de agrupamiento basado en Modelos

La idea básica es seleccionar un modelo particular para cada grupo y encontrar el que mejor se ajuste a ese modelo. Existen principalmente dos tipos de algoritmos de agrupación basados ​​en modelos, uno basado en el método de aprendizaje estadístico y el otro basado en el método de aprendizaje de redes neuronales.

Los algoritmos típicos, basados ​​en el método de aprendizaje estadístico, son COBWEB y GMM. La idea central de COBWEB es construir un árbol de clasificación, basado en algunos criterios heurísticos, para realizar la agrupación jerárquica en el supuesto de que la distribución de probabilidad de cada atributo es independiente.

Los algoritmos típicos, basados ​​en el método de aprendizaje de redes neuronales, son SOM y ART. La idea central de ART, un algoritmo incremental, es generar una nueva neurona dinámicamente para que coincida con un nuevo patrón para crear un nuevo grupo cuando las neuronas actuales no son suficientes.

Algoritmo de agrupamiento basado en Densidad

Forma de identificar clusters siguiendo el modo intuitivo en el que lo hace el cerebro humano, identificando regiones con alta densidad de observaciones separadas por regiones de baja densidad.

Este es un buen algoritmo para encontrar esquemas en un conjunto de datos. Encuentra grupos de forma arbitraria en función de la densidad de puntos de datos en diferentes regiones. Separa las regiones por áreas de baja densidad para que pueda detectar valores atípicos entre los grupos de alta densidad. Este algoritmo es mejor que k-means cuando se trata de trabajar con datos de formas extrañas.

Agrupación Difusa

Los métodos de clustering descritos hasta ahora (K-means, agrupación jerárquica, K-medoids, CLARA…) asignan cada observación únicamente a un cluster, de ahí que también se conozcan como hard clustering. Los métodos de agrupación difusa se caracterizan porque, cada observación, puede pertenecer potencialmente a varios clusters, en concreto, cada observación tiene asignado un grado de pertenencia a cada uno de los cluster.

Fuzzy c-means (FCM) es uno de los algoritmos más empleado para generar agrupaciones difusas. Se asemeja en gran medida al algoritmo de k-means, pero con dos diferencias:

  • El cálculo de los centroides de los clusters. La definición de centroide empleada por c-means es: la media de todas las observaciones del set de datos ponderada por la probabilidad de pertenecer a al cluster.
  • Devuelve para cada observación la probabilidad de pertenecer a cada cluster.

Árboles de Clasificación y Regresión

Los árboles de clasificación y regresión (CART=Classification and Regression Trees) son una alternativa al análisis tradicional de clasificación o a la predicción tradicional (regresión). Entre las ventajas de estos árboles podemos destacar su robustez a los valores atípicos (outliers), la invarianza en la estructura de sus árboles de clasificación o de regresión a transformaciones de las variables independientes, y sobre todo, su facilidad a la hora de traducir las reglas de asignación a cada nodo terminal (interpretabilidad).

Son árboles de regresión cuando la variable dependiente es continua y árboles de clasificación cuando la variable dependiente es de tipo cualitativo. De acuerdo a lo anterior, es necesario definir adecuadamente el tipo de variable objetivo que se quiere llegar a predecir (numérica o categórica) en función de poder determinar el algoritmo adecuado.

En esencia, se trata de dar con un esquema de múltiples dicotomías o bifurcaciones, anidadas en forma de árbol , de manera que siguiendo cada una de las ramas del árbol obtengamos, al final, una predicción para la clase de pertenencia (clasificación) o para el valor que toman (regresión) los individuos que cumplen con las propiedades que se han ido exigiendo en las distintas bifurcaciones.

Los árboles de decisión se construyen mediante un algoritmo conocido como segmentación recursiva, que es el proceso paso a paso para dicha construcción. Existen principalmente tres procedimientos: CHAID (Chi-Square Automatic Interaction Detector) ¡QUEST (Quick Unbiased Efficient Statistical Tree ) y CART.

Algoritmos basados en Redes Neuronales – SOM o Mapas de Kohonen

Los mapas Auto-Organizados (SOM, por sunombre en inglés Self-Organizing Maps) fueron presentados por Teuvo Kohonen en 1982, por lo que también reciben el nombre de Mapas Auto-organizados de Kohonen o Redes Neuronales de Kohonen, estos mapas están inspirados en la capacidad del cerebro humano de reconocer y extraer rasgos o características relevantes del mundo que los rodea.

La idea básica del SOM es crear una imagen de un espacio multidimensional de entrada en un espacio de salida de menor dimensión. Se trata de un modelo de dos capas de neuronas. La primera capa de entrada y la segunda de procesamiento. Las neuronas de la capa de entrada se limitan a recoger y canalizar la información. La capa de salida o procesamiento está ligada a la capa de entrada a través de los pesos sinápticos de las conexiones.

El mapa auto-organizado de Kohonen está constituido por dos niveles de neuronas, el de entrada y el de salida. Pero solo en el nivel de salida se genera procesamiento de información, por lo que recibe el nombre de capa de salida, y la red pertenece al tipo monocapa. La conectividad es total, es decir, todas las neuronas de la capa de salida reciben los estímulos de las neuronas de entrada

En las redes autoorganizadas, el entrenamiento se realiza presentando sólo entradas. Como resultado de este aprendizaje no supervisado, la red debe descubrir patrones o características significativas en los datos de entrada, e incorporarlas a sus pesos (autoorganización). Dado lo anterior, las redes pueden identificar subconjuntos de la población con características similares en función de la naturaleza de las variables de entrada al modelo.

Este tipo de procesamiento es muy útil para distintos tipos de aplicaciones: análisis de similitud de patrones de entrada; análisis de componentes principales, agrupamiento y clasificación, memoria asociativo, codificación, etc.

Si bien la norma no es específica en cuanto a qué tipos de algoritmos de segmentación pueden o deben ser usados en dichos procesos, es importante que en la etapa de Modelamiento puedan ser probados diferentes algoritmos, los cuales deben ser consistentes en cuanto a: número de variables, tipos de variables y número de registros a utilizar en el proceso de entrenamiento de los modelos.

De acuerdo a lo anterior, antes de seleccionar la técnica o algoritmo a utilizar, se hace necesario:

  • Definir cuáles son los variables que van a ser probadas en el proceso
  • Determinar la variable objetivo en caso de querer probar un algoritmo supervisado como los árboles de clasificación o regresión
  • Tener claras cuales van a ser las medidas de calidad para evaluar homogeneidad y heterogeneidad
  • Hacer un análisis previo para determinar cuáles son las señales de alerta que se pretenden identificar posterior al proceso de segmentación, las cuales deben ser definidas de acuerdo con la dinámica propia de cada entidad.

En conclusión, no existe un solo algoritmo o una sola técnica adecuada para realizar el proceso de Segmentación de los Factores de Riesgo. Cada una de las técnicas tienen sus ventajas a la hora de abordar los procesos y, debido a esto, se hace necesario hacer diferentes pruebas que permitan finalmente seleccionar un enfoque teniendo en cuenta el contexto interno y externo de la entidad, el resultado entregado por la técnica específica y la razonabilidad de los mismos en función del aporte que haga tanto en el proceso posterior de identificación de riesgos como en la implementación de señales de alerta derivadas de la segmentación.

Por: J. Sierra


¿Necesitas acompañamiento para definir los algoritmos de segmentación de tu empresa?

Déjanos tus datos y te acompañaremos en todo el proceso

Tambien podria interesarte: Segmentación SARLAFT: Conceptos claves para elegir el modelo más adecuado

Navegación de entradas
← Entrada anterior
Entrada siguiente →

También podría Interesarte

SARLAFT 4.0: Una lucha contra los delitos financieros

Deja un comentario / Financiación del terrorismo, Lavado de activos, SARLAFT 4.0, Sistema de prevención del riesgo / Por Aml Stradata

SARLAFT 4.0: Recomendaciones para la gestión de los factores de riesgo

2 comentarios / Analítica, analytics, SARLAFT, SARLAFT 4.0 / Por Aml Stradata

Entradas recientes

  • SARLAFT: 4 etapas
  • KYC: La importancia de conocer a tu cliente
  • Diferencias entre SARLAFT y SAGRILAFT
  • Matriz de Riesgo
  • Lo que debes saber sobre listas restrictivas

Comentarios recientes

  1. Hernán Salas González en ¿Qué es la financiación de la proliferación de armas de destrucción masiva y cómo afecta a Colombia?
  2. José Luis en ¿Son seguras las redes sociales?
  3. Juan Esteban Cataño en El arte de segmentar clientes
  4. Jorge Cortes en El arte de segmentar clientes

Archivos

  • marzo 2023
  • febrero 2023
  • enero 2023
  • diciembre 2022
  • noviembre 2022
  • julio 2022
  • mayo 2022
  • abril 2022
  • marzo 2022
  • enero 2022
  • diciembre 2021
  • noviembre 2021
  • octubre 2021
  • septiembre 2021
  • agosto 2021
  • julio 2021
  • junio 2021
  • mayo 2021
  • abril 2021
  • marzo 2021
  • febrero 2021
  • enero 2021
  • diciembre 2020
  • noviembre 2020
  • octubre 2020
  • septiembre 2020
  • agosto 2020
  • julio 2020
  • junio 2020
  • abril 2020
  • marzo 2020
  • febrero 2020
  • enero 2020
  • diciembre 2019
  • noviembre 2019
  • octubre 2019
  • septiembre 2019
  • agosto 2019
  • julio 2019
  • abril 2019
  • marzo 2019
  • febrero 2019
  • noviembre 2018
  • octubre 2018
  • septiembre 2018
  • marzo 2017
  • febrero 2017
  • diciembre 2016
  • noviembre 2016
  • septiembre 2016
  • mayo 2016
  • marzo 2016

Categorías

  • Análisis de datos
  • Análisis de sentimientos
  • Analítica
  • analytics
  • Bienes
  • Big Data
  • bpo
  • Captación ilegal
  • case manager
  • Conocimiento del cliente
  • Corrupción
  • Criptomonedas
  • Decreto
  • Estrategia de Mercadeo
  • exdom
  • Factores de riesgo
  • Financiación de la proliferación de armas de destrucción masiva
  • Financiación del terrorismo
  • Inteligencia Artificial
  • kyc
  • LAFT
  • Lavado de activos
  • Lista de Pandora Papers
  • listas
  • Listas Restrictivas
  • Machine Learning
  • Mahout
  • Matriz de Riesgos
  • Mercadeo
  • Minería de datos
  • Negocios
  • news
  • Oficial de Cumplimiento
  • Pandora Papers
  • PEP's
  • Prevención de Riesgos
  • Procesamiento de datos
  • Redes sociales
  • Reputación online
  • risk scoring
  • SAGRILAFT
  • SARLAFT
  • SARLAFT 4.0
  • Segmentación
  • SICOF
  • Sin categoría
  • Sistema de prevención del riesgo
  • Stradata Analytics
  • Stradata Search
  • Suplantación de Identidad
  • Tecnología
  • Uncategorized

Nosotros
Aviso de privacidad
Política de tratamiento de datos personales

 

NUESTRA INFORMACIÓN

Carrera 29C #10C-125 Edificio SELECT P.H Nivel 5. Oficina 502
info@stradata.com.co
(57) 318 348 16 24