Banco Interamericano de Desarrollo
facebook
twitter
youtube
linkedin
instagram
Abierto al públicoBeyond BordersCaribbean Development TrendsCiudades SosteniblesEnergía para el FuturoEnfoque EducaciónFactor TrabajoGente SaludableGestión fiscalGobernarteIdeas MatterIdeas que CuentanIdeaçãoImpactoIndustrias CreativasLa Maleta AbiertaMoviliblogMás Allá de las FronterasNegocios SosteniblesPrimeros PasosPuntos sobre la iSeguridad CiudadanaSostenibilidadVolvamos a la fuente¿Y si hablamos de igualdad?Inicio
Administración pública Agua y saneamiento Ciencia, tecnología e innovación Comercio e integración regional Conocimeinto Abierto Desarrollo infantil temprano Desarrollo urbano y vivienda Educación Energía Género y diversidad Impacto Industrias Creativas Medio ambiente, cambio climático y Salvaguardias Política y gestión fiscal Salud Sin Miedos Trabajo y pensiones
  • Skip to main content
  • Skip to secondary menu
  • Skip to primary sidebar
  • Skip to footer

Impacto

  • INICIO
  • CATEGORÍAS
    • Cómo medimos nuestro desempeño
    • Discusiones más allá de la efectividad en el desarrollo
    • Métodos y técnicas de evaluación
    • Qué funciona y qué no en desarrollo
  • Autores
  • Español
    • English

Errores: mientras más simples ¿Mejor?

July 15, 2014 por Autor invitado Deja un comentario


Por: David Alfaro Serrano*

 erroresp

La estimación correcta de los errores estándar de los estimadores de los coeficientes de una regresión es importante. Esta estimación es necesaria para el análisis de significatividad estadística, que es la base de la interpretación de los resultados de un análisis econométrico. En la práctica de las evaluaciones de impacto, el análisis de significancia estadística es lo que le permite al investigador decir si hay o no evidencia a favor de la efectividad de una intervención.

En este post les cuento algo que descubrí hace poco sobre el cálculo de los errores estándar de los estimadores: hay casos en los que la correlación del error del modelo de regresión puede pasarse por alto al momento de calcularlos. Más aun, este caso se da frecuentemente cuando los datos son obtenidos de modo experimental.

¿Clusterizar o no clusterizar los errores? Esa es la cuestión

Una de las decisiones principales que el investigador debe tomar en relación a la estimación de los errores estándar es si se van a usar errores estándar clusterizados o no. La expresión poblacional usual de los errores estándar (la que intenta estimar Stata por default) está basada en el supuesto de independencia del término de error a través de las observaciones. Una situación común en la que este supuesto no puede sostenerse es cuando existen grupos de observaciones en los que el término de error presenta correlación. Por ejemplo, cuando la unidad de observación son familias que son afectadas por características del barrio o villa en la que viven. En estos casos, la expresión usual debe ajustarse. Este ajuste se conoce como clusterización. Si no se usan errores estándar clusterizados cuando es debido, el investigador podría encontrar efectos de una intervención cuando estos realmente no existen.

Imaginemos ahora que estamos tratando de evaluar mediante un experimento aleatorio un programa que se asigna a los hogares de una región. Los hogares son nuestra unidad de observación y estos están agrupados en villas. La asignación del programa en el experimento se realiza al azar, sin tener en cuenta la villa a la que pertenecen los hogares. ¿Es necesario clusterizar los errores estándar a nivel de villa en este caso?

Hoy dos respuestas posibles:

No   Dado que la asignación aleatoria se dió a nivel de hogares, no es necesario considerar la correlación del término de error ya que lo correcto es “clusterizar al nivel de la aleatorización” (esta frase y sus variaciones son muy usadas) y esto es así, incluso si es verdad que hay variables no observadas que tienen correlación al interior de las villas.

 

Si   Para que se pueda usar la expresión usual, se requiere que los no observables sean independientes a través de las observaciones. Si no lo son, es necesario clusterizar. La independencia o no de las variables no observadas es algo que depende de la naturaleza del fenómeno y su existencia no es afectada por el hecho de que asignemos aleatoriamente o no una intervención.

La solución desde una perspectiva poblacional: con datos experimentales, da lo mismo

Por mucho tiempo, mi posición en esta discusión ha sido “si”. Después de todo, si el supuesto para que valga la fórmula usual no se cumple, no puede ser esa la expresión correcta. Siempre he pensado que “clusterizar al nivel de la aleatorización” no es más que un adagio muchas veces útil, pero errado en este caso. Sin embargo, parece ser que he estado equivocado.

Como escriben Cameron y Miller (2013), una revisión de literatura sobre inferencia robusta a clusters, si el regresor de interés está asignado aleatoriamente, las expresiones poblacionales de los errores estándar clusterizados y no clusterizados coinciden. En este trabajo los autores se preguntan cuál es la magnitud del ajuste que se requiere cuando hay correlación de los no observables. Una forma simple de responder a este interrogante es calculando el cociente de las expresiones poblacionales de los errores estándar con y sin clusterización. Este cociente, cuya expresión se puede encontrar en la sección IIB.1 de ese paper, nos informa sobre la relevancia de este ajuste en distintos contextos.

Como era de esperarse, en dicho cociente se puede notar que mientras mayor sea la correlación intragrupo del término de error (o sea, mientras más grosero sea el incumplimiento del supuesto de independencia de éste entre las observaciones), mayor será la magnitud del ajuste requerido. Esto hace mucho sentido y apoya a quienes dicen “si”. Sin embargo, (y aquí es donde está la magia) la magnitud del ajuste también depende de la correlación intragrupo del regresor que se está analizando. En el caso particular en que la correlación intragrupo es cero, el ajuste para tener en cuenta la correlación del término de error, si bien es necesario, tiene una magnitud nula (¡es equivalente a multiplicar por 1!). Esto es lo que comúnmente quienes defienden el “si” pasan por alto. Si nuestro interés recae en el efecto de un tratamiento asignado aleatoriamente (como en un experimento), estamos justamente en este caso particular y puede prescindirse de considerar la correlación del término de error cuando se piensa en el error estándar del estimador del efecto causal.

La solución en la práctica – En una situación como esta, mejor no clusterizar

En la práctica, conviene hacerle caso a los que dicen “no” cuando analizamos una situación como la del ejemplo. Bueno, ¿Por qué tanto lio? Podría decir usted. Si en el caso particular de un experimento las expresiones con y sin clusterización coinciden, pues mejor usamos siempre la primera y listo. No tan rápido. Lo que muestran Cameron y Miller (2013) es que las expresiones poblacionales con y sin clusterización coinciden cuando el regresor de interés ha sido asignado aleatoriamente, sin embargo, en la práctica, estos valores no son directamente observables sino que deben ser estimados. El estimador de la expresión usual del error estándar (el que aplica Stata por default) tiene un mejor desempeño de muestra finita que el estimador de White, que es el que se emplea para estimar el los errores estándar clusterizados (el que aplica Stata cuando se elige la opción vce(cluster clustervar)). Por ello, conviene evitar utilizar errores estándar clusterizados siempre que sea posible. En nuestro ejemplo, dado que la correlación intragrupo del término de error puede ignorarse, es mejor estimar la expresión usual del error estándar.

Lo anterior tampoco debe ser interpretado como una recomendación a nunca usar errores estándar clusterizados con datos experimentales. Un contraejemplo simple es el siguiente. Si en nuestro ejemplo inicial, nuestra unidad de observación fuera el individuo y no el hogar, pero el tratamiento continuara siendo asignado a nivel de hogares, sería necesario utilizar errores clusterizados a nivel de hogar ya que la correlación intrahogar de la variable de tratamiento seria 1 (la máxima posible, de hecho) y no 0. Moulton (1990) utiliza un caso similar, en el que el nivel de aplicación del tratamiento no coincide con el nivel de observación, para mostrar que existen casos en los que leves correlaciones intragrupo del termino de error pueden dar lugar a grandes correcciones en las varianzas de los estimadores.

Otro caso en el que debemos ser cuidadosos, es el que se da cuando analizamos derrames (spillovers en inglés). Si bien la variable de tratamiento directo puede ser asignada aleatoriamente dentro de los grupos, la variable de tratamiento indirecto exhibirá, por su naturaleza, gran correlación intragrupo y, por ello, la corrección requerida al calcular la varianza del estimador de efecto indirecto puede grande.

Una nota final

La conclusión práctica de este post probablemente sea “siga haciendo las cosas como siempre”. Sin embargo, puede ser útil tener en mente las razones que sustentan la idea de “clusterizar al nivel de la aleatorización” cuando se enfrentan situaciones dudosas. Recomiendo fuertemente la lectura de Cameron y Miller (2013). Ahí se tratan, no solo este, sino varios temas de relevancia práctica sobre el uso de inferencia robusta a clusters.

David Alfaro Serrano es economista y tiene una maestría de la Universidad de San Andrés (Argentina). Actualmente se desempeña como consultor de la Oficina de Planificación Estratégico y Efectividad en el Desarrollo del BID. Su trabajo está centrado en políticas de desarrollo productivo.


Archivado Bajo:Métodos y técnicas de evaluación Etiquetado con:Cluster, error, error estándar, estimador

Autor invitado

Reader Interactions

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Primary Sidebar

SIGUENOS

Subscribe

Buscar

Acerca del blog

Este blog resalta ideas efectivas en la lucha contra la pobreza y la exclusión, y analiza el impacto de los proyectos de desarrollo en América Latina y el Caribe.

Categorías

Footer

Banco Interamericano de Desarrollo
facebook
twitter
youtube
youtube
youtube

    Blogs escritos por empleados del BID:

    Copyright © Banco Interamericano de Desarrollo ("BID"). Este trabajo está disponible bajo los términos de una licencia Creative Commons IGO 3.0 Reconocimiento-No comercial-Sin Obras Derivadas. (CC-IGO 3.0 BY-NC-ND) y pueden reproducirse con la debida atribución al BID y para cualquier uso no comercial. No se permite ningún trabajo derivado. Cualquier disputa relacionada con el uso de las obras del BID que no se pueda resolver de manera amistosa se someterá a arbitraje de conformidad con el reglamento de la CNUDMI. El uso del nombre del BID para cualquier otro propósito que no sea la atribución, y el uso del logotipo del BID estarán sujetos a un acuerdo de licencia escrito por separado entre el BID y el usuario y no está autorizado como parte de esta licencia CC-IGO. Tenga en cuenta que el enlace proporcionado anteriormente incluye términos y condiciones adicionales de la licencia.


    Blogs escritos por autores externos:

    Para preguntas relacionadas con los derechos de autor para autores que no son empleados del BID, por favor complete el formulario de contacto de este blog.

    Las opiniones expresadas en este blog son las de los autores y no necesariamente reflejan las opiniones del BID, su Directorio Ejecutivo o los países que representan.

    Atribución: además de otorgar la atribución al respectivo autor y propietario de los derechos de autor, según proceda, le agradeceríamos que incluyera un enlace que remita al sitio web de los blogs del BID.



    Política de privacidad

    Derechos de autor © 2025 · Magazine Pro en Genesis Framework · WordPress · Log in

    Banco Interamericano de Desarrollo

    Aviso Legal

    Las opiniones expresadas en estos blogs son las de los autores y no necesariamente reflejan las opiniones del Banco Interamericano de Desarrollo, sus directivas, la Asamblea de Gobernadores o sus países miembros.

    facebook
    twitter
    youtube
    En este sitio web se utilizan cookies para optimizar la funcionalidad y brindar la mejor experiencia posible. Si continúa visitando otras páginas, se instalarán cookies en su navegador.
    Para obtener más información al respecto, haga clic aquí.
    X
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Always Enabled
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SAVE & ACCEPT