Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al PúblicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Abierto al Público

  • INICIO
    • ¿Qué es el Conocimiento Abierto?
    • Sobre este blog
    • ¿Cómo suscribirse?
    • Pautas editoriales
  • CATEGORÍAS
    • Aprendizaje abierto
    • Código abierto
    • Datos abiertos
    • Gestión del conocimiento
    • Sistemas abiertos
  • AUTORES
  • Español

Tres consejos para compartir tus bases de datos con éxito

August 6, 2021 by Carolina Huart Deja un comentario


4 minutos de lectura.

La calidad de los datos es crucial para la divulgación científica. Cada usuario de datos puede consultar el mismo conjunto de datos, pero tener una pregunta de investigación diferente. A partir de tu investigación original puedes convertir tus datos en información útil y de valor para otros usuarios. 

Los conjuntos de datos pueden ser muy variados dependiendo de la ciencia objeto de estudio y para darles sentido es necesario contar con un plan y evaluar nuevas formas de pensar acerca del esquema de datos inicial. El aseguramiento de la calidad de datos (Data Quality Assurance,  DQA) es el proceso de verificación de la fiabilidad y la eficacia que incluye la actualización de los datos, su estandarización y su control para crear una única vista de los datos. En este artículo te damos algunos consejos iniciales para llevar a cabo este proceso.

1. Organiza

Utiliza técnicas para organizar y recolectar tus datos de manera proactiva. Para organizar nuestros datos, cada conjunto de datos debe tener una variable que identifica de forma única (identificador único) las observaciones. Cada fila nos da la observación particular de cada variable y cada columna nos da la información sobre una característica particular de toda la muestra del conjunto de datos.

Ten en cuenta que un identificador único es una variable que define claramente cada una de las unidades de observación del conjunto de datos. Por ejemplo: números de serie de datos sobre un producto en particular, números aleatorios generados para identificar usuarios que responden una encuesta, etc.

2. Limpia

Mantén tus datos limpios para evitar duplicados y errores a lo largo del ciclo de vida de tu investigación. Recuerda que la falta de calidad puede conducir, entre otros problemas técnicos, a ineficiencias operacionales.

Algunos ejemplos de datos no limpios son:

  • Títulos de categorías inconsistentes.
  • Valores numéricos en un mismo campo de observación que solo admite texto.
  • Valores textuales en un campo numérico, como por ejemplo de código postal.
  • Datos duplicados.
  • Errores de formato y codificación UTF-8, como por ejemplo caracteres especiales.
  • Valores sin referencia.

Algunas recomendaciones para agilizar este proceso:

  • Asegúrate que los datos se alinean en columnas apropiadas.
  • Verifica que no hay datos faltantes o valores anómalos.
  • Busca valores atípicos, para identificar si hubo una posible contaminación de datos.
  • Retira los campos que son innecesarios.
  • Revisa que los campos no contengan información relevante sobre personas.

3. Da formato a tus datos

Comienza con filas tabulares de datos sin procesar para garantizar que los datos recopilados se encuentren en un formato utilizable para el análisis. Un conjunto de datos se compone de observaciones individuales y de variables y por lo general se muestra en tablas. A los efectos de la usabilidad general, una vez que hayas finalizado con el formato, expórtalo a una hoja de cálculo en forma de archivo “.csv” (valores separados por comas, en inglés comma-separated values), que es un formato universal en donde las diferentes columnas están separadas por comas. Estos archivos se pueden abrir y procesar por programas tipo MS Excel o Google Sheets, así como por paquetes estadísticos más avanzados incluyendo Python, R, Pandas, SPSS o STATA.

En el caso de que tu set de datos tenga un tamaño que no pueda ser visualizado por los programas de hojas de cálculo más tradicionales, será necesario un sistema de gestión de datos (Database Management System, DBMS)que permita visualizar los datos del backend; cuando decimos backend nos referimos a las tablas dentro de la base de datos. En ese caso será necesario asegurarse de que los informes que ejecuten los usuarios, a partir de los datos, sean precisos y considerando que generalmente hay bases de datos múltiples, el objetivo no solo consiste en lo que hay en las tablas, sino también en cómo estas están relacionadas.

Ejemplos de tablas con buen y mal formato

Por último

Siguiendo un flujo de trabajo similar puedes garantizar datos de calidad comenzando con la recopilación y organización, seguido de decisiones metodológicas y limpieza de datos, hasta la visualización y el análisis; esto permitirá presentar un conjunto de datos significativo y fácil de explorar y analizar por parte de otros usuarios. Una vez que hayas implementado estos tres pasos no te olvides de documentar cuál es el significado de las variables dentro de un diccionario de datos.

Por Carolina Huart de la Biblioteca Felipe Herrera del Banco Interamericano de Desarrollo (BID).


Archivado Bajo:Datos abiertos Etiquetado con:Análisis de datos, Paso a paso

Carolina Huart

Carolina Huart faz parte da equipe da Biblioteca Felipe Herrera e trabalha como bibliotecária especializada para o Setor de Integração e Comércio do BID. Trabalhou para a iniciativa Números para o Desenvolvimento (N4D), desde seu início no BID, em 2015, e seu trabalho nessa área se concentrou na supervisão de políticas institucionais para melhorar a gestão, preservação e intercâmbio de dados. Por meio de boas práticas de gerenciamento de dados de pesquisa (RDM) e curadoria digital (preservação e preservação), ela fornece aos pesquisadores os meios para estruturar dados e construir com eficácia a segurança, adequação, descoberta e reutilização futuras. Carolina apoia voluntariamente o trabalho de organizações que promovem a comunicação científica e a reprodutibilidade de dados de pesquisa, como "Fair Data" e "Data Citation Principles".

Reader Interactions

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SIGUENOS

Suscríbete

Sobre este blog

Podemos describir al conocimiento abierto como aquel conocimiento que puede ser usado, reutilizado y compartido sin restricciones, ya que cuenta con las características tanto legales como tecnológicas para ser accedido por cualquier persona, en cualquier momento y en cualquier lugar del mundo.

En el blog "Abierto al Público" exploramos los temas, recursos, iniciativas e impacto de la apertura de conocimiento a nivel global, prestando especial atención a lo que sucede en la región de América Latina y el Caribe. También abordamos los esfuerzos que lleva a cabo el Banco Interamericano de Desarrollo por apoyar la diseminación del conocimiento abierto y accionable que constantemente genera esta organización.

Buscar

Explorar temas

AcademiaBID Acceso abierto Acceso a la información Análisis de datos Análisis de texto Big Data Cambio climático Ciencia Abierta Conceptos clave Conocimiento Abierto Coronavirus Creative Commons Credenciales digitales Crowdsourcing Código para el Desarrollo Datos geoespaciales Diseño instruccional El Rincón de Publicación Emprendimiento Eventos Gobierno abierto Género y diversidad Hackatones Inclusión digital Innovación abierta Inteligencia Artificial Lecciones aprendidas Metodologías MOOC Más leídos Números para el Desarrollo Objetivos de Desarrollo Sostenible Participación ciudadana Paso a paso Periodismo de datos Procesamiento del Lenguaje Natural Productos de conocimiento Protección de datos Proyectos de desarrollo Recursos accionables Solidaridad Trabajo en equipo Visualización de datos

Publicaciones similares

  • ¿Qué es la gestión de datos de investigación? Te explicamos en 5 pasos esenciales
  • ¡Libera los datos encerrados en archivos PDF!
  • 4 conjuntos de datos destacados del portal de datos abiertos Números para el Desarrollo
  • 5 principios para maximizar el uso de los datos abiertos
  • Tratemos las bases de datos como si fueran artículos científicos

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

Blogs escritos por empleados del BID:

Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


Blogs escritos por autores externos:

Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



Política de privacidad

Copyright © 2023 · Magazine Pro on Genesis Framework · WordPress · Log in

Banco Interamericano de Desarrollo

Aviso Legal

Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

facebook
twitter
youtube
En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
Para obtener más información al respecto, haga clic aquí.
x
Manage consent

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled

Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.

Non-necessary

Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.

SAVE & ACCEPT