Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español
    • English

Conoce el Clasificador de Datos Atípicos

September 14, 2018 por Carlos Tejada - Luis Tejerina Deja un comentario


Una de las claves para implementar o evaluar un programa social es contar con buenos datos. Y, en este sentido, los sistemas de información de programas sociales son clave para la efectividad de cualquier programa. Estos sistemas dependen de ejercicios masivos de levantamiento de información sobre hogares, que sirven para determinar su elegibilidad para recibir un beneficio determinado en salud, educación o una transferencia condicionada, por ejemplo. Sin embargo, los levantamientos no siempre permiten verificar manualmente cada una de las variables que se les preguntan a los hogares, por lo que pueden existir errores o datos atípicos en la información obtenida. Por este motivo, mejorar estos datos puede en efecto fortalecer la calidad de los programas sociales, permitiendo brindar los servicios cada vez con mayor precisión y con mayor eficiencia.

Como en tantos otros campos, la revolución digital está permitiendo aplicar la tecnología para obtener mejores resultados en las políticas sociales. Un ejemplo es una nueva aplicación abierta que aplica técnicas de machine learning para mejorar y acelerar la revisión de estos datos. El Clasificador de Datos Atípicos, anteriormente conocido como el Sistema de Identificación de Potenciales Beneficiarios de Programas Sociales en Colombia (SISBEN ML) es un sistema que fue diseñado con el propósito de automatizar un proceso de control de calidad, tomando en cuenta toda la información disponible de las encuestas de hogares de una manera objetiva para seleccionar los casos que ameriten verificación. Esta herramienta clasifica automáticamente los casos atípicos de información para mejorar la calidad del dato y la eficiencia en el proceso de revisión de los potenciales beneficiarios de programas sociales.

La herramienta fue desarrollada en código abierto y está disponible a través de la iniciativa Código para el Desarrollo del BID. Es un resultado que esperamos poder replicar cuando el BID colabore con el desarrollo de otras soluciones informáticas junto a los países de la región.

Un sistema que clasifica y visualiza los datos de los programas sociales

El Clasificador de Datos Atípicos consiste en dos componentes. El primero es el clasificador, que incluye los algoritmos con los que se ejecuta la clasificación de los hogares, que revisa los datos de las encuestas y los monitorea para detectar los casos atípicos. El segundo componente de la solución es el visualizador, una interfaz Web que permite ver los casos que el primer componente ha identificado como atípicos, y a la vez resalta las variables dentro de cada formulario que considera son las que pueden tener problemas. Esto sirve para facilitar el proceso de revisión de los indicadores de clasificación de las fichas de hogares levantados por el Clasificador de Datos Atípicos.

Los algoritmos de la versión actual funcionan de manera no supervisada. Lo novedoso de la solución es que el sistema aprende por sí solo qué es atípico y qué no. Este aprendizaje lo realiza por zona geográfica, es decir, el algoritmo clasifica las fichas como atípicas dependiendo del contexto local donde vive la familia entrevistada.

Los procesos tradicionales para revisar los datos de los programas sociales utilizan mallas lógicas de validación o sistemas de validación manual. Por ejemplo, una malla lógica de validación verifica que alguien que nació en 1975 no tenga 5 años en la base de datos. La revisión manual depende de una persona revisando encuestas una a una. El machine learning permite utilizar automáticamente toda la información disponible desde la encuesta para determinar casos atípicos que pueden ser menos obvios, como por ejemplo el uso de un material de construcción poco común en el área.

Las ventajas de automizar la detección de datos atípicos

Automatizar este proceso tiene una serie de ventajas para la institución que gestiona los programas sociales:

  1. En primer lugar, le permite reducir costos minimizando el personal requerido para la revisión de los datos recolectados.
  2. También permite incrementar la calidad de la base de datos final. En el caso manual, se realizaría un muestreo aleatorio para poder entregar a tiempo los resultados y mantener los costos bajos. En este caso, es el algoritmo el que selecciona la muestra después de realizar una primera revisión a todas las fichas.
  3. Por último, la herramienta permite corregir cualquier problema logístico o de la herramienta de levantamiento durante la ejecución de la operación, ya que el algoritmo va arrojando en tiempo real los resultados del análisis de los datos depositados en la base de datos central.

La herramienta fue desarrollada en coordinación con el Departamento Nacional de Planeación de Colombia, y puede ser adaptada para utilizar en otros países. Cualquier organización puede calibrar los componentes con los pesos que valoren en sus cálculos.

En el proceso de creación de la herramienta aprendimos mucho acerca de los tipos de validación que son necesarios para que una herramienta sea reusable por terceros y en la actualidad estamos trabajando en una versión más modular que tenga menos dependencias con tecnologías de un proveedor en particular. Esto permitiría a cualquier institución utilizar el sistema, independientemente de su infraestructura, sistema operativo y otras herramientas que pudiese estar utilizando.

En un futuro cercano esperamos dar un paso adicional a través del uso de la información de bases de datos sociales y herramientas que aplican machine learning para potenciar aún más la información y mejorar la eficiencia del uso de recursos públicos en programas sociales.

Descarga aquí el Clasificador de Datos Atípicos

Por Luis Tejerina, Especialista Líder en Protección Social y Salud del BID y Carlos Tejada, consultor de sistemas informáticos.


Archivado Bajo:Código abierto Etiquetado con:Análisis de datos, Código para el Desarrollo, Productos de conocimiento, Recursos accionables

Carlos Tejada

Carlos Tejada es un consultor de sistemas informáticos. Ha colaborado con el BID en el diseño e implementación de proyectos de tecnología en varios países desde el 2010.

Luis Tejerina

Luis Tejerina es especialista líder en la División de Protección Social y Salud del Banco Interamericano de Desarrollo, en donde trabaja aportando su experiencia en proyectos de transformación digital en el sector social y en herramientas para promover el uso más eficiente y efectivo de la tecnología.

Reader Interactions

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SÍGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog 'Abierto al Público' exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Taxonomía Trabajo en equipo Visualización de datos

Publicaciones similares

  • Pulso Social: explorando el desarrollo social a través de datos abiertos
  • Tecnología para afrontar los retos en los Programas de Transferencias Monetarias
  • 3 iniciativas abiertas para la gestión sostenible del agua
  • Software libre al servicio de la salud de las mujeres y los niños de Chiapas
  • Código para el Desarrollo: celebrando dos años de abrir el software para el público

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Copyright © 2025 · Magazine Pro on Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    x
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT