Innovando con aprendizaje reforzado para equipos de cumplimiento

El aprendizaje reforzado forma parte de una de las diferentes técnicas para aplicar aprendizaje automático o Machine Learning (ML).

 

Esta técnica se basa principalmente en encontrar el mejor comportamiento del agente de Inteligencia Artificial (AI) que tenemos, para que pueda aprender de sus propias decisiones. Es decir, que pueda tomar la mejor decisión en un tiempo dado, para mejorar la respuesta. Esto se realiza en un proceso iterativo de ensayo y error con la finalidad de reforzar positivamente cada vez que logre un objetivo.

 ¿Cómo podemos implementar esta técnica?

En teoría el algoritmo es capaz de desenvolverse en cualquier ambiente donde sea expuesto, lo que es el principal objetivo de la Inteligencia Artificial. Para ello, es necesario tener claro cómo puede tomar decisiones y en qué condiciones o acciones.

Contamos con tres aspectos importantes:

  • El agente AI que deseamos exponer
  • Los estados en los que puede estar en un tiempo determinado.
  • Las acciones que debe tomar según la respuesta o la recompensa obtenida.

A la última característica, se le llama recompensa porque de esto dependerá la acción que pueda tomar en la siguiente iteración, la cual podría ser positiva o negativa para el agente.

 

El aprendizaje reforzado a través de un ejemplo

Seguramente has jugado o conoces el juego de PacMan, así que usaremos este ejemplo para explicar cómo funciona el aprendizaje reforzado, que como bien vimos en los párrafos anteriores se basa en: “Encontrar el mejor comportamiento para que el agente pueda aprender de sus propias decisiones y pueda tomar la mejor decisión en un tiempo dado”.

En el juego de PacMan tenemos un agente de Inteligencia Artificial que es el personaje principal. El estado es la casilla donde se encuentra el personaje o agente en un tiempo determinado. El medio ambiente donde se desenvuelve es el laberinto. La acción que realiza es poder comer los puntos y así poder cambiar de estado (casilla). La recompensa positiva es ganar puntos y la negativa es que pueda ser comido por un enemigo. [1]

En este juego nuestro agente siempre está aprendiendo sobre las acciones realizadas para que en las próximas jugadas pueda ser más efectivo y alcanzar la recompensa positiva.

Aprendizaje reforzado aplicado en procesos AML

Ahora bien, si llevamos la lógica del aprendizaje reforzado a los procesos de prevención de Lavado de Activos y Financiación del Terrorismo, podríamos hablar de la validación de contrapartes en prensa negativa. Pues  este es un buen ejemplo que responde a la necesidad de mayor efectividad en la clasificación de noticias, en medio de un mar de información.

Además, al buscar reducir la cantidad de falsos positivos (personas con registro de riesgo o sospecha, que no son realmente una amenaza), aumenta la eficiencia en las validaciones de prensa negativa, pues el recurso humano puede tornarse costo e insuficiente en temas de tiempo en cada validación.

Así que si aplicamos aprendizaje reforzado  en la validación de contrapartes en prensa negativa, podemos ver algoritmos de clasificación de noticias que se mantienen en constante entrenamiento, donde existe un agente de Inteligencia Artificial, que es el encargado de la correcta clasificación de estas noticias.

aprendizaje reforzado en procesos LAFT

Uno de los estados en los que se posiciona, es una de las tantas noticias que debe interpretar dentro de un medio ambiente (todas las noticias de la Web). El agente clasificador recibe ciertas recompensas por realizar la tarea, de las cuales una puede ser positiva, al validar la clasificación de forma correcta y, por otra parte, está la recompensa negativa cuando no puede realizar la clasificación de la noticia bajo ninguna condición. La acción de cambiar de noticia a clasificar es lo que lleva al agente a cambiar de estado.

Existe lo que se llama recompensa acumulada esperada que trata, no solo de obtener recompensas a medida que va cambiando de noticia, sino que va mucho más allá, el objetivo principal es poder clasificar de forma correcta todas y cada una de las noticias según los criterios definidos que concuerden con temas de LAFT y así poder garantizar una estabilidad al modelo de clasificación. 

De este modo podemos decir que el aprendizaje por refuerzo se basa principalmente en un ciclo de tres estados, ubicación (noticia) – acción (clasificar) – recompensa (se logró o no la clasificación).

Existen herramientas disponibles en la nube para desarrollar esta técnica de aprendizaje reforzado, que buscan el entrenamiento de un modelo de aprendizaje automático para preparar los datos, y luego programar y realizar pruebas de nuestro robot. [2]

Incorporar procesos de aprendizaje reforzado en los equipos de cumplimiento es aportar innovación, efectividad y eficiencia.

Autor: M. Araujo

En Stradata trabajamos para estar a la vanguardia de las nuevas tecnologías que nos ayuden a mejorar nuestros proyectos y productos, por eso investigamos e implementamos tecnologías como el aprendizaje reforzado con el ánimo de  ofrecer soluciones innovadoras que generen valor a nuestros clientes.

 

Contáctanos y conoce más de nuestras soluciones.

 

Referencias

[1] http://tiny.cc/vv05fz

[2] https://aws.amazon.com/es/sagemaker/

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *