La ciencia de datos, mejor conocida como “data science” se ha convertido en una de las disciplinas con mayor crecimiento en las empresas e instituciones de investigación dada a la versatilidad de soluciones que puede ofrecer en las diferentes industrias. Muchas veces sin que el usuario esté consciente, grandes cantidades de datos son procesados para recomendar una película, predecir el precio de un vuelo o clasificar una compra como fraudulenta o legítima.
Sin embargo, el proceso de analizar datos es caro, complicado e imperfecto, ya que la ciencia de datos involucra muchas disciplinas diferentes, además, no hay una receta para el “modelo perfecto”. A diferencia del desarrollo de software, que se tiene claro el resultado final, un proceso analítico puede arrojar resultados inesperados y en ocasiones no se llega a una solución viable. La ciencia de datos es una ciencia inexacta.
A continuación, exploraremos un breve recuento del desarrollo de esta ciencia y cómo se ha ido volviendo más accesible:
1 Historia de la ciencia de datos
En el siguiente gráfico, se muestra la tendencia y resultados de búsqueda de tres ocupaciones (estadístico, ingeniero en software y científico de datos) en los últimos 10 años. En la primera mitad de ese periodo, “Data Scientist” prácticamente no generaba búsquedas, mientras que en la segunda mitad la tendencia va hacia la alta incluso superando a las demás profesiones en los últimos años.

La ciencia de datos es una disciplina relativamente nueva, en 1977 apenas se estaba hablando de que “debía hacerse más énfasis en el uso de datos para sugerir hipótesis”. No fue hasta 1996 que se acuñaron términos como “data science” (ciencia de datos) o “data mining” (minería de datos) como “la aplicación de algoritmos específicos para extraer patrones de datos”.
2 La evolución del crowdsourcing
La “novedosa” necesidad de profesionales multidisciplinarios diestros en la ciencia de datos representa un reto para las empresas y organizaciones, así como una oportunidad para los jóvenes profesionales que quieren incursionar en el análisis de datos. Como resultado de esto nació el “crowdsourcing”, es decir, la acción de abrir una convocatoria para que un grupo de personas alrededor del mundo solucione un problema o tarea de manera colaborativa. Actualmente, los ejemplos de su uso abundan: Wikipedia, hackatones, concursos de diseño gráfico, robótica, emprendedurismo y sobre casi cualquier tema que se pueda abrir a la población para que ésta busque o desarrolle su solución. Como resultado, se obtienen no solo las ideas de un equipo contratado para realizar cierta tarea, sino la combinación de conocimiento que un grupo grande de personas puede aportar.
Bajo este paradigma nacen las competencias de ciencia de datos. El sitio más famoso que las organiza se llama kaggle. A través de este sitio web, compañías u organizaciones ponen a disposición un problema y un set de datos de prueba a más de 85.000 científicos de datos alrededor del mundo y éstos se encargan de solucionarlo con la promesa de una recompensa. Los premios en kaggle varían desde una suma económica, trabajos en la empresa que propone el problema, o simplemente el reconocimiento.
3 La ciencia de datos y el crowdsourcing promoviendo la inclusión
La ventaja de este “modelo” es que no hay barreras de entrada. Cualquiera con una cuenta en kaggle puede colaborar, enviar propuestas y participar en los foros para ampliar la base de conocimientos general. Así mismo, muchas empresas y organizaciones pueden verse beneficiadas: 55 competencias en kaggle han sido dedicadas para investigaciones tales como identificar ballenas en peligro de extinción, pacientes con epilepsia o rehabilitación de personas con extremidades amputadas.
Este modelo permite además a las instituciones concentrarse en un problema, con la ayuda de iniciativas como kaggle, pueden darle valor a sus datos mediante un proceso estructurado para asegurar que los científicos de datos tengan todos los insumos que necesitan para resolver el problema solicitado. El reto más grande de muchas organizaciones no es que no puedan pagar un equipo de ciencia de datos, probablemente sí puedan, pero sus estructuras organizacionales y tecnológicas aún no se adaptan a una arquitectura de datos centralizada y organizada, ideal y lista para arrojar preguntas y crear modelos para responderlas.
Tal vez sea muy difícil y caro crear una base de conocimiento tan amplia como Wikipedia o Stack Overflow de manera privada o tener a disposición los mejores profesionales en los equipos de trabajo, pero gracias al crowdsourcing precisamente esto es posible. Literalmente, millones de cabezas piensan mejor que una.
Por: Eladio Montero de Grupo Inco
Leave a Reply