Por Mark van der Laan.
Mi padre me dijo una vez que lo más importante a la hora de resolver un problema es planteárselo de manera correcta. Como estadísticos, se podría creer que la mayoría de nosotros estaría de acuerdo con este consejo. Supongamos que vamos a construir una máquina que pudiera realizar transplantes de corazón gracias a la transportación. No se necesitaría cirugía, simplemente habría que presionar un botón y la máquina por sí sola le sacaría al paciente el corazón que ya no le funciona bien y le transplantaría el nuevo con toda la precisión necesaria que requiere llevar a cabo esta actividad. Sería algo estupendo, ¿verdad?
Sin embargo, sería realmente un disparate llevar a cabo esta operación basándonos en supuestos simplificadores cuando la ciencia nos dice que son falsos. Utilizar supuestos de este tipo podrían significar la muerte del enfermo y el fracaso del equipo medico.
Sin embargo, esta es la metodología que por lo general emplean los estadísticos, haciendo referencia, a veces, al gran estadístico inglés del siglo XX, George E.P. Box, quien creía que “en esencia, todos los modelos son falsos, pero algunos son útiles“.
Comprender por qué la afirmación del Sr. Box es obsoleta para la estadística es comprender que se están sentando las bases para una revolución en el método, para emplear uno en el que se apliquen técnicas de aprendizaje automático. Algo que parecería impensable para Box hace tres decenios y, más aún, para el precursor de la informática, Alan Turing.
Es una revolución que tiene la capacidad de fortalecer el vínculo entre científicos y estadísticos y que cumple un rol fundamental en la comprensión de macrodatos, o Big Data como se los denomina en inglés; así como los macrodatos son fundamentales para el futuro de la estadística y la ciencia. De todas maneras, para llegar a abordar lo que he denominado “targeted learning” (aprendizaje focalizado), es necesario comenzar con el problema básico del modelo estadístico.
La mayoría de las herramientas de software de estadística fomentan el uso del modelo paramétrico. Por esto, el diseño y análisis de experimentos se basa en supuestos muy simplificadores acerca de la distribución de datos que están bastante errados.
Muchos han admitido que estos modelos de análisis obtienen como resultado una epidemia de falsos positivos, es decir, conclusiones falsas. Entre ellos, se encuentra John Ioannidis, quien, en el año 2005, publicó en la revista médica internacional PLOS Medicine el artículo titulado: “¿Por qué la mayoría de las investigaciones son falsas?”. Este ensayo proporcionó argumentos convincentes para una reforma y atrajo la atención de muchas personas fuera del ámbito de la ciencia y la estadística a un problema que es de gran importancia para la producción de conocimiento.
Se puede demostrar, entonces, que el empleo de modelos paramétricos garantizados no específicos también es garantía de que, para un tamaño de muestra lo suficientemente grande, el intervalo de confianza declarado no incluirá el valor real, por ejemplo, la verdadera magnitud de los efectos de un tratamiento para una enfermedad del corazón.
Esto significa que nosotros, los estadísticos, nos enorgullecemos por ir más allá de la extracción de datos, cuando en realidad nuestros intervalos de confianza son siempre erróneos.
Aprendizaje focalizado y macrodatos Por otra parte, hemos llegado a un momento en la historia en el que la tecnología puede ayudarnos a trascender las restricciones que nos impone el modelo paramétrico y a enfrentar los problemas que surgen de la estimación de parámetros. Así, lograr un modelo estadístico realista y una definición clara del valor real deseado, que son la respuesta a la cuestión.
Desde el año 2006, hemos desarrollado un método estadístico de aprendizaje, enfocado a un máximo de probabilidades, que integra el estado actual del aprendizaje automático y la estimación de datos adaptativos a los increíbles avances tecnológicos en inferencias causales, datos censurados, eficacia y teorías del proceso empírico. La integración del aprendizaje automático se efectúa a través de lo que hemos denominado “super learning” (macro aprendizaje). Al presentar un alto grado de flexibilidad con respecto al conjunto de datos y al orientar el aprendizaje hacia el valor real deseado, el targeted learning nos permite proporcionar un valor estimado y un intervalo de confianza preciso.
El primer paso en el super learning es la construcción de una biblioteca que incluya estimadores basados en un modelo paramétrico y estimadores de datos flexibles. Existen numerosos algoritmos de aprendizaje automático y es un número que crece cada año. Los algoritmos atraviesan un proceso iterativo de actualización que tiene como finalidad alcanzar un equilibrio entre el sesgo (que tiene lugar cuando el modelo no es lo suficientemente flexible) y la varianza (cuando el modelo es demasiado flexible).
El algoritmo de super learning utiliza los datos para decidir entre todas las combinaciones ponderadas posibles de estos algoritmos. El conjunto de datos se pueden subdividir en varias “muestras de entrenamiento”, en donde los algoritmos compiten entre sí, y en “muestras de validación”, en donde se evalúa el rendimiento de los mismos. La combinación ponderada que ofrezca el mejor de rendimiento promedio es la elegida.
Nuestra investigación ha demostrado que para el análisis de grandes muestras de datos, el proceso de super learner posee un rendimiento igual al de la mejor combinación ponderada de todos estos algoritmos. Por lo tanto, lo que hemos aprendido es que no se debe apostar por un solo algoritmo, sino que se debería usar cada uno de ellos para crear una biblioteca fuerte que contenga una diversa gama de algoritmos candidatos y luego, implementarlos sobre el conjunto de datos de manera competitiva.
Este campo de targeted learning está abierto a todo tipo de contribuciones. Lo cierto es que toda persona que se plantee con honestidad el problema de la estimación de parámetros, y que esté realmente interesada en encontrar una respuesta a esta cuestión científica se verá, en cierta forma, obligada a informarse acerca de estos métodos y podrá realizar contribuciones importantes en esta área.
En conclusión, la ciencia necesita los macrodatos y un targeted learning estadístico, por lo que estadísticos y científicos de datos deberán ponerse a la altura de los desafíos para que la ciencia prospere en su totalidad.
Mark van der Laan es profesor de bioestadística y estadística de la Universidad de Berkeley, California.Su grupo de investigación es responsable de desarrollar los enfoques estadísticos de aprendizaje dirigido.
Hector Hurtado dice
Leí el artículo y aún me cuesta entenderlo. Faltó ejemplos que ilustren las tesis planteadas. Lo pueden realizar en una siguiente publicación.
Fulvia Guerra dice
Interesante, los comentarios espero mayores publicaciones de este autor para comprenderlos mejor.
Erick dice
Como indican en los comentarios anteriores, sería de gran utilidad para comprender mejor los conceptos ejemplos. Quizás otro artículo solo para ilustrar el ejemplo. Es una lectura que requieres de conceptos previos (términos estadísticos), no es para todo público.
Emma Flores dice
Buen aporte, al leer este artículo me di cuenta del error que cometí al ejecutar mi trabajo de investigación…