Una de las claves para implementar o evaluar un programa social es contar con buenos datos. Y, en este sentido, los sistemas de información de programas sociales son clave para la efectividad de cualquier programa. Estos sistemas dependen de ejercicios masivos de levantamiento de información sobre hogares, que sirven para determinar su elegibilidad para recibir un beneficio determinado en salud, educación o una transferencia condicionada, por ejemplo. Sin embargo, los levantamientos no siempre permiten verificar manualmente cada una de las variables que se les preguntan a los hogares, por lo que pueden existir errores o datos atípicos en la información obtenida. Por este motivo, mejorar estos datos puede en efecto fortalecer la calidad de los programas sociales, permitiendo brindar los servicios cada vez con mayor precisión y con mayor eficiencia.
Como en tantos otros campos, la revolución digital está permitiendo aplicar la tecnología para obtener mejores resultados en las políticas sociales. Un ejemplo es una nueva aplicación abierta que aplica técnicas de machine learning para mejorar y acelerar la revisión de estos datos. El Clasificador de Datos Atípicos, anteriormente conocido como el Sistema de Identificación de Potenciales Beneficiarios de Programas Sociales en Colombia (SISBEN ML) es un sistema que fue diseñado con el propósito de automatizar un proceso de control de calidad, tomando en cuenta toda la información disponible de las encuestas de hogares de una manera objetiva para seleccionar los casos que ameriten verificación. Esta herramienta clasifica automáticamente los casos atípicos de información para mejorar la calidad del dato y la eficiencia en el proceso de revisión de los potenciales beneficiarios de programas sociales.
La herramienta fue desarrollada en código abierto y está disponible a través de la iniciativa Código para el Desarrollo del BID. Es un resultado que esperamos poder replicar cuando el BID colabore con el desarrollo de otras soluciones informáticas junto a los países de la región.
Un sistema que clasifica y visualiza los datos de los programas sociales
El Clasificador de Datos Atípicos consiste en dos componentes. El primero es el clasificador, que incluye los algoritmos con los que se ejecuta la clasificación de los hogares, que revisa los datos de las encuestas y los monitorea para detectar los casos atípicos. El segundo componente de la solución es el visualizador, una interfaz Web que permite ver los casos que el primer componente ha identificado como atípicos, y a la vez resalta las variables dentro de cada formulario que considera son las que pueden tener problemas. Esto sirve para facilitar el proceso de revisión de los indicadores de clasificación de las fichas de hogares levantados por el Clasificador de Datos Atípicos.
Los algoritmos de la versión actual funcionan de manera no supervisada. Lo novedoso de la solución es que el sistema aprende por sí solo qué es atípico y qué no. Este aprendizaje lo realiza por zona geográfica, es decir, el algoritmo clasifica las fichas como atípicas dependiendo del contexto local donde vive la familia entrevistada.
Los procesos tradicionales para revisar los datos de los programas sociales utilizan mallas lógicas de validación o sistemas de validación manual. Por ejemplo, una malla lógica de validación verifica que alguien que nació en 1975 no tenga 5 años en la base de datos. La revisión manual depende de una persona revisando encuestas una a una. El machine learning permite utilizar automáticamente toda la información disponible desde la encuesta para determinar casos atípicos que pueden ser menos obvios, como por ejemplo el uso de un material de construcción poco común en el área.
Las ventajas de automizar la detección de datos atípicos
Automatizar este proceso tiene una serie de ventajas para la institución que gestiona los programas sociales:
- En primer lugar, le permite reducir costos minimizando el personal requerido para la revisión de los datos recolectados.
- También permite incrementar la calidad de la base de datos final. En el caso manual, se realizaría un muestreo aleatorio para poder entregar a tiempo los resultados y mantener los costos bajos. En este caso, es el algoritmo el que selecciona la muestra después de realizar una primera revisión a todas las fichas.
- Por último, la herramienta permite corregir cualquier problema logístico o de la herramienta de levantamiento durante la ejecución de la operación, ya que el algoritmo va arrojando en tiempo real los resultados del análisis de los datos depositados en la base de datos central.
La herramienta fue desarrollada en coordinación con el Departamento Nacional de Planeación de Colombia, y puede ser adaptada para utilizar en otros países. Cualquier organización puede calibrar los componentes con los pesos que valoren en sus cálculos.
En el proceso de creación de la herramienta aprendimos mucho acerca de los tipos de validación que son necesarios para que una herramienta sea reusable por terceros y en la actualidad estamos trabajando en una versión más modular que tenga menos dependencias con tecnologías de un proveedor en particular. Esto permitiría a cualquier institución utilizar el sistema, independientemente de su infraestructura, sistema operativo y otras herramientas que pudiese estar utilizando.
En un futuro cercano esperamos dar un paso adicional a través del uso de la información de bases de datos sociales y herramientas que aplican machine learning para potenciar aún más la información y mejorar la eficiencia del uso de recursos públicos en programas sociales.
Descarga aquí el Clasificador de Datos Atípicos
Por Luis Tejerina, Especialista Líder en Protección Social y Salud del BID y Carlos Tejada, consultor de sistemas informáticos.
Leave a Reply