SENTINEL

Predictions

Problema

El lavado de dinero, el financiamiento del terrorismo y el fraude, son temas importantes de nuestra actualidad, sin embargo, a pesar de los constantes esfuerzos que se implementan en las instituciones financieras para evitar dichos problemas, el crimen organizado encuentra métodos más avanzados para tratar de pasar desapercibidos.

El mercado se renueva continuamente y los avances tecnológicos son cada vez mayores, se debe innovar en cuanto a las estrategias de prevención y las herramientas empleadas, de esta forma podemos estar un paso adelante. El surgimiento de modelos avanzados de Machine Learning brinda opciones de algoritmos muy sofisticados como Deep Learning, Redes Neurales, Arboles de Decisión y otros, que impulsan a las instituciones a ir más allá y ampliar el panorama para detectar cada movimiento inusual.

prevencion-emisor

Beneficios

Sentinel Predictions es un ambiente de diseño visual para construir rapidamente modelos de análisis predictivo para la prevención de fraude, lavado de dinero, análisis de riesgo y comportamiento de los clientes, entre otros. Provee una completa librería de algoritmos de aprendizaje, preparación y exploración de datos, herramientas de validación de modelos y el servidor de evaluación de modelos integrado con Sentinel.

Los modelos de Sentinel Predictions generan un score que puede ser utilizado por los motores transaccionales de Sentinel tanto en un enfoque en "tiempo real" como "en línea", combinado con las distintas herramientas analíticas y toma de decisiones que ya provee el sistema.

Producto: Sentinel Predictions

Principales Carácterísticas

  • Ambiente visual fácil de usar para el diseño de procesos analíticos
  • Cuenta con una innovadora funcionalidad de autogeneración de modelos, que le permite a Sentinel crear y entrenar múltiples modelos automáticamente, comparar sus resultados y permitirle al usuario determinar cuáles desea establecer en un ambiente productivo.
  • Contiene un conjunto de herramientas de exploración de datos y visualizaciones intuitivas
  • Incluye 1500 operadores para todas las tareas de análisis y preparación de datos.
  • Soporta el uso del lenguaje estadístico R.

Etapas del Proceso de Generación de Modelos de "Machine Learning" en Sentinel

Acceso y Administración de Datos

Exploración de Datos

Preparación de Datos

Modelaje

Validación de Prueba

Acceso y Administración de Datos

  • Brinda acceso a la base de datos de Sentinel y a las estructuras transaccionales.
  • Tiene la capacidad de interactuar con archivos Excel, CSV, y bases de datos relacionales como Oracle, MS SQLServer, IBM DB2, MySQL y otras.

Exploración de Datos

La exploración de los datos a través de una serie de técnicas estadísticas permite entender la composición de los datos, la generación de distintos grupos y comportamientos de los sujetos en análisis: tarjetahabientes, canales, clientes, transacciones, sucursales, cajeros automáticos, etc.

Habilita funciones de estadística descriptiva

  • Estadística univariable, con atributos numéricos, categóricos y fechas
  • Estadística bivariable: matriz de covarianza, matriz de correlación y matriz de transición

Gráficos e información. Permite una fácil configuración de distintos tipos de gráficos para realizar un análisis rápido de los datos, dentro de los cuales se incluyen: matrices de dispersión, lineal, burbuja, paralelo, Desviación, 3-D, densidad, histogramas, área, barras y barras apiladas, pastel, curvas de Andrews, Pareto

Preparación de Datos

En muchos casos la generación de modelos predictivos requiere la preparación de los datos ya que estos no necesariamente tienen la calidad óptima, tienen valores incompletos, requiere el filtrado y mezcla de distintos grupos de información, o la generación de nuevos datos a partir de los existentes.

  • Permite la agregación de múltiples funciones como: suma, promedio, mediana, desviación estándar, varianza, contar, mínimo, máximo, producto, logaritmo del producto.
  • Habilita el uso de operadores como ‘join’, ‘merge’, ‘append’, ‘union’ o intersección.
  • Permite el filtro de valores distantes a través de distancias, densidades, correlaciones.
  • Identifica y remueve duplicados.
  • Permite la generación de datos de ejemplos a través de varias técnicas y funciones estadísticas como: absoluto, relativo o basado en probabilidad, balanceado, estratificado, bootstrapping, kennard-Stone.
  • Habilita la transformación de los datos a través de varias técnicas como: normalización y estandarización, transformación Z, escalas por pesos, logaritmo y funciones exponenciales, funciones trigonométricas, entre otras.
  • Permite el particionamiento de datos creando subconjuntos para entrenamiento, validación cruzada y pruebas.
  • Cuenta con funciones y técnicas para la selección de atributos para el modelo en diseño, como: Chi cuadrado y correlación, por esquemas de pesos como índice Gini, análisis de componentes principales (PCA), análisis independiente de componentes (ICA), algoritmo de generalización Hebbian (GHA), reducción dimensional con mapas de auto-organización (SOM), entre otros.
  • Permite la generación automática de nuevos atributos a través de 15 técnicas distintas, incluyendo programación genética.

Modelaje

Sentinel Predictions cuenta con una amplia variedad de algoritmos de aprendizaje supervisados y no supervisados para la generación de modelos. La utilización de cada algoritmo es dependiente normalmente de lo que se desea predecir, así como de la calidad y cantidad de los datos. En muchas ocasiones para un mismo objetivo, por ejemplo, prevención de fraude, se generan múltiples modelos a través de distintos algoritmos para que compitan por la obtención de los mejores resultados y al final contar con un “campeón”.

  • Calculo de Similitudes, para calcular las similitudes entre los puntos de dos conjuntos de datos, con medidas de distancia numérica: Euclidean, Camberra, Chebychev, Correlation, Coseno, Dice, Dynamic Time Warping, Inner product, Jaccard, Kernel-Euclidean, Manhattan, Max-Product, Overlap; y medidas de distancias categóricas y nominales: nominal, Dice, Jaccard, Kulczynski, Rogers-Tanimoto, Russel-Rao, Simple Matching.
  • Clustering: Definido por el usuario o selección automática del mejor cluster, entre estos: Support Vector Clustering, K-Means, K-Medoids, Kernel k-Means, X-Means, Cobweb, Clope, DBScan, Expectation Maximization Clustering, Self-organizing maps, Agglomerative Clustering, Top Down Clustering.
  • Árboles de Decisión: algoritmos de clasificación y regresión (CART), CHAID, ID3, C 4.5, Random Forest, Multi-way Trees, Gradiend Boosted Trees. (GBT), Pre-pruning and pruning y 9 algoritmos más.
  • Inducción de Reglas: a través de 12 distintos tipos de algoritmos.
  • Redes Bayesianas
  • Regresiones: lineal, logístico, modelo lineal generalizado (H2O), regresión logística del núcleo, análisis discriminante lineal (LDA), análisis discrecional cuadrático (QDA), entre muchas otras.
  • Redes Neurales: con arquitecturas de redes flexibles con diferentes funciones de activación, múltiples capas con diferentes números de nodos, diferentes técnicas de entrenamiento, perceptron, perceptron multicapa, aprendizaje profundo (H2O).
  • Máquinas de Soporte de Vectores: las cuales permiten robustas técnicas de modelado para un gran número de dimensiones, con más de 10 métodos diferentes para la clasificación de vector de apoyo, regresión y agrupación.
  • Modelamiento basado en memoria, como: k-Nearest Neighbors para clasificación y regresión.

Validación de Prueba

Estimar el rendimiento del modelo y su precisión es fundamental para determinar si se puede establecer en producción evaluando la información en línea suministrada por Sentinel o si necesita algún afinamiento.

  • Criterios de Rendimiento: Muchos criterios de desempeño para objetivos numéricos y nominales o categóricos, incluyen: Exactitud, error de clasificación, Kappa, area bajo curva (AUC), precisión, falsos positivos/falsos negativos, sensibilidad, especificidad, indice de Youden, correlación, spearman rho, kendall tau, correlación cuadrada, entre muchas otras
  • Técnicas de Validación: Muestra múltiples resultados en la historia para ayudar a evaluar mejor el rendimiento del modelo, como: validación cruzada, validación de división, bootstrapping, gráfico de elevación, curvas ROC, matriz de confusión, entre otras

CONTÁCTENOS

  • Responderémos sus consultas muy pronto, escribános hoy.
  • Este campo es un campo de validación y debe quedar sin cambios.
© 2018 SmartSoft. Todos los derechos reservados.