América Latina y el Caribe se ha caracterizado por tener bajos niveles de recaudación tributaria. Mientras que en países de la OECD el promedio de recaudo como proporción del PIB equivale al 34.3%, en América Latina y el Caribe esta cifra se centra alrededor del 22.7% (OECD et al. 2018).
La evasión tributaria explica en cierta medida los bajos niveles de recaudo en la región. Según estudios de la CEPAL (2018), los gobiernos de la región dejan de percibir ingresos que representan aproximadamente el 7% del PIB por concepto de evasión tributaria.
La situación de Perú es particularmente crítica, pues mientras en 2002 los ingresos tributarios representaban 16.9% del PIB, en 2002 esta proporción bajó al 12.9% del PIB. En el Gráfico 1 se presentan los diferentes factores que explican esta caída en la recaudación, según el Ministerio de Economía y Finanzas del Perú (MEF, 2018). Como se puede ver, la insuficiencia en el control por parte de la administración tributaria y aduanera es el principal factor determinante de la caída en los ingresos (MEF, 2018), explicando 1.4 puntos porcentuales de esta caída de cuatro puntos en la recaudación.

Esto ocurre en un contexto de elevada evasión[1] en los principales impuestos[2], el Impuesto General a las Ventas[3] (IGV) y el Impuesto sobre la Renta (ISR), cuya evasión alcanza el 36% y el 57%, respectivamente.
Conscientes del potencial de herramientas de big data para combatir la evasión tributaria, la Super Intendencia Nacional de Aduanas y de Administración Tributaria (SUNAT), en colaboración con el BID mediante una operación de préstamo, creó en octubre de 2017 el primer equipo de ciencia de datos en esta administración, que cuenta con cinco científicos de datos -todos menores de treinta años- que son estadísticos, matemáticos y profesionales en ciencias de la computación. La misión de este equipo consiste en desarrollar algoritmos para detectar la evasión y así, focalizar los esfuerzos de fiscalización de la administración tributaria. Veamos dos de los cinco proyectos relacionados con el análisis de la evasión, de los cuales se desprenden importantes lecciones.
Cómo detectar la evasión de los restaurantes en Perú
En 2013 y 2014, el sector de restaurantes en Perú tuvo un importante crecimiento económico de aproximadamente 7% anual. En particular, los concesionarios de alimentos lograron un crecimiento del 18% en el 2014. Sin embargo, este incremento no se vio necesariamente reflejado en el recaudo tributario. Por eso el primer proyecto de la oficina de ciencia de datos fue identificar las categorías de restaurantes que no entregan toda la información de ventas que le suministran a SUNAT, lo que les permite reducir la base tributaria sobre la cual pagan el ISR corporativo y el IGV.
Hay dos tipos de algoritmos de “machine learning”. Los algoritmos que utilizan datos con categorías claramente definidas se denominan métodos de aprendizaje supervisado. Por ejemplo, si se quiere identificar las características de los contribuyentes que entregan tarde sus obligaciones tributarias, se puede utilizar un método de aprendizaje supervisado, pues la SUNAT puede identificar claramente quien es puntual y quien no con base en sus datos.
Por otra parte, cuando no es posible utilizar categorías claramente definidas en los datos, se implementan métodos de aprendizaje no supervisado. Este es el caso de la evasión tributaria, pues las administraciones tributarias no tienen una manera clara, precisa y confiable de identificar qué contribuyentes son evasores y cuáles no. Si así fuera el caso, no tendríamos problemas de evasión en la región. En el caso de la evasión tributaria, el equipo de proyecto utilizó un método algorítmico llamado “aprendizaje no supervisado” de manera que los algoritmos reconozcan patrones en los datos para etiquetarlos en diferentes categorías. En el caso de Perú no hay datos que permitan clasificar a los contribuyentes como evasores o no evasores, pues estas categorías no están bien definidas en los datos de las administraciones tributarias.
Dado que no es posible identificar en principio qué contribuyentes son o no evasores, en el proyecto de detección de evasión de restaurantes se implementó un método de aprendizaje no supervisado conocido como “k-means”. La idea de este algoritmo es utilizar múltiples variables de los datos, para así generar grupos de observaciones que son similares entre sí. Para definir las categorías en el proyecto de restaurantes, las variables que se utilizaron son aquellas que afectan directamente los impuestos que las empresas deben pagar tales como el IGV, el ISR corporativo, y los diferentes tipos de impuestos a la nómina. Por esta razón, se utilizaron variables como volumen de ventas, compras, número de empleados y número de facturas emitidas, entre otros.
Como resultado, se detectaron cinco categorías de restaurantes, de las cuales el grupo 4, que corresponde a restaurantes de bajo costo (ver Gráfico 2), presentaba un perfil elevado de riesgo de evasión: por cada venta realizada en este grupo se encontraron hasta más de dos transacciones de tarjeta de crédito, lo que sugiere que no están registrando todas las ventas reales que realizan.
Esto permitió a la SUNAT concentrar los esfuerzos de fiscalización en este grupo de restaurantes.

Detectando gastos no deducibles de las empresas en Perú
Las empresas que cuentan con volúmenes de ventas anuales mayores a 1,700 Unidades Impositivas Tributarias (UIT)[4] están obligadas a pagar impuestos de renta corporativa equivalentes al 29.5% de sus beneficios.
Los gastos que las empresas deben reportar son únicamente aquellos que se relacionan directamente con la actividad económica. Evidentemente, las firmas tendrán incentivos a reportar más gastos de los que en realidad tienen, pues esto reduce la base sobre la cual pagan el impuesto. Por esta razón, es común que las empresas deduzcan gastos familiares, de restaurantes, o recreacionales para disminuir los impuestos de renta que deben pagar.
El proyecto de gastos no deducibles de la oficina de ciencia de datos en Perú tiene como objetivo identificar los gastos no relacionados con el giro del negocio. Para esto, se utilizó la información disponible en el comprobante de pago electrónico, más conocido como factura electrónica. Este sistema de comprobante electrónico le permite a la SUNAT contar con una gran cantidad de información sobre todas las ventas formales realizadas por los contribuyentes en Perú. Por ejemplo, se puede identificar con precisión entre qué entidades se realizó la transacción, el día, la hora, y detalles relacionados con el tipo de producto o servicio que se transó.
El proyecto de detección de gastos no deducibles realizó un análisis del texto de las facturas emitidas en el mes de mayo de 2018 para identificar patrones relacionados con gastos familiares tales como cines, restaurantes o recreación, así como la hora de la transacción. Una factura que se emite un domingo en la noche, en el rubro correspondiente a cine, para una empresa que opera únicamente de lunes a viernes, tiene un perfil de riesgo más alto que una factura que se emite en horarios laborales. De esta forma, esta metodología permitió identificar un monto equivalente a US$60 millones en evasión correspondientes a gastos no deducibles únicamente para mayo de 2018.
Big data contra la evasión: lecciones para el futuro
A raíz del desarrollo del equipo de ciencia de datos para combatir la evasión en la administración tributaria del Perú se generan ciertas lecciones que se pueden tener en cuenta para el desarrollo de estrategias similares en otras administraciones tributarias.
- La gran cantidad de información existente por parte de instituciones gubernamentales es una gran herramienta para el desarrollo de políticas públicas. Esto es particularmente relevante para el caso de la lucha contra la evasión en América Latina. Sin embargo, es importante tener en cuenta que la ciencia de datos por sí sola no es la solución a todos los problemas, y en muchos casos no será una opción viable para implementar. Se debe tener siempre presente cual es el objetivo, el problema, y los datos disponibles para solucionar el reto determinado.
- Otra lección importante es que se debe contar con el constante acompañamiento de expertos en el tema específico de la política pública en la que se está trabajando. No solo expertos en ciencia de datos sino personas con gran conocimiento de políticas públicas para identificar específicamente el problema y la viabilidad de las soluciones brindadas. Los proyectos de ciencia de datos de la SUNAT no hubieran sido posibles sin la constante asesoría de expertos en administración tributaria que fue brindada a los científicos de datos de esta entidad.
- Quizás el aprendizaje más importante está relacionado con el componente organizacional de las administraciones tributarias. Las oficinas de ciencias de datos no son parte de la estructura organizacional tradicional de una administración tributaria. Debido a esta novedad, se debe desarrollar una metodología clara de trabajo en la que se especifique debidamente cómo este departamento interactúa con las diferentes áreas de la administración tributaria y que permita identificar con claridad los problemas prioritarios en los que se deben concentrar los esfuerzos de esta oficina.

Esta entrada fue redactada por Rodrigo Azuero, José Larios y Agnes Rojas.
[1] Marco Macroeconómico Multianual-MMM 2018-2021.
[2] El IGV y el ISR representan el 52% y el 35% de la recaudación, respectivamente.
[3] Nombre que recibe el Impuesto al Valor Agregado en Perú.
[4] Una UIT equivale a US$1,260 aproximadamente.
Leave a Reply