El problema de negocio:
Cada vez que recibe una operación de financiamiento (compuesta por una o más facturas que el cliente busca financiar), Xepelin debe ser capaz de producir una métrica de riesgo de crédito para cada una de las facturas que componen la operación de financiamiento.
El problema de ingeniería:
Desde un punto de vista de Machine Learning debemos desarrollar un producto de datos que permita :
- Producir respuestas near real time para que sean usadas de input para tomar decisiones.
- Monitoreo de la calidad de predicciones de nuestro modelo y de la estabilidad de nuestro sistema.
- Un workflow CI / CD en el que nuestros desarrolladores puedan seguir desarrollando y poniendo en producción versiones mejoradas de nuestro modelo y de nuestro producto de datos.
(Asumo que hay un dato con el que no contábamos previamente al momento de la solicitud que es el monto de la factura, lo que nos impide calcular en batch y nos obliga a realizar la predicción del modelo “al vuelo”.)
Se propone desarrollar el sistema en los servicios de AWS integrados en una lógica de Infrastructure as a Service (IaaS) a través de Gitlab y orquestado a través de Airflow.
Los principales servicios a utilizar serán:
- Step functions + Glue para desarrollar el Pipeline de Procesamiento diario de datos en Batch y el Pipeline de Reentrenamiento del Modelo
- Lambda para recibir la Solicitud de operación de Financiamiento y devolver la predicción del modelo.
- PostgreSQL para guardar las predicciones de nuestro modelo
- MongoDB para obtener los datos sobre business y payer al momento de realizar las predicciones.
- S3 para guardar datos sobre facturas, el pkl del modelo de ML