jueves, 21 de agosto de 2025

Análisis del fichero de morosos de Hacienda con R

Cada año Hacienda publica el fichero de morosos en formato PDF digitalizado, listando todas las personas físicas o jurídicas que adeudan (según la propia Hacienda) al menos 600.000€ al tesoro público, e indicando la cantidad reclamada a cada una de ellas. En 2024 han sumado 5.997 deudores.

Para poder estudiar las cifras toca procesar sus 121 páginas con algún OCR (lo he intentado con ChatGPT pero me ha dicho que si quieres arroz Catalina, así que lo he hecho con R). No he afinado mucho porque me dan pereza estas cosas no deterministas pero tras reconocer, creo que bastante correctamente, el 97% de los deudores del fichero nos podemos hacer una idea de la distribución.

El formato del fichero se presenta a continuación, incluyendo a la derecha los valores reconocidos por OCR. Las dos funciones que hacen el procesado se las he pedido a ChatGPT (hacer clic para ver en alta resolución):



La deuda media sale de 2,7 millones de € y la mediana de 1,1 millones de € (es la cifra por debajo de la que está la mitad de deudores del listado estando la otra mitad por encima). Como era de esperar la distribución es de tipo exponencial: mayor densidad de deudores a menor deuda y viceversa. El 3,8% de deudores están por encima de los 10 millones de € de deuda, punto en el que se trunca el histograma. El campeón por arriba es REYAL URBIS con 278 millones de € de deuda:



Bertín Osborne e Isabel Pantoja, unos habituales de la lista, caen en la parte baja por debajo de la mediana, pero también hay que pensar que se trata de personas físicas "compitiendo" en el ranking con muchas empresas. Contrasta la capacidad para generar ingresos de algunas personas con la poca para retenerlos, con lo fácil que debería resultar vivir por debajo de tus posibilidades cuando el dinero abunda.

~~~

Repositorio con el código R: GitHub.

No hay comentarios:

Publicar un comentario

Por claridad del blog, por favor trata de utilizar una sintaxis lo más correcta posible y no abusar del uso de emoticonos, mayúsculas y similares.