Campbell y Goodhart exponen la trampa que destruye servicios

La promesa suena moderna: si todo se mide, todo mejora. Tableros, semáforos, KPI, rankings; la gestión pública convertida en panel de control. El problema es que, en cuanto la métrica deja de ser termómetro y se vuelve premio o castigo, cambia de naturaleza: deja de describir el servicio y empieza a dictar el servicio. Ahí aparece la degradación: lo medible se vuelve el objetivo, y el objetivo se corrompe.

Goodhart lo formuló en clave monetaria, pero su intuición es general: cuando una medida se vuelve objetivo, deja de ser buena medida. Campbell lo volvió más incisivo para políticas sociales: cuanto más se usa un indicador cuantitativo para decidir y sancionar, más presión recibe para ser “arreglado”, y más tiende a distorsionar los procesos que supuestamente monitorea. Es decir: el indicador no solo se corrompe; corrompe.

Los mecanismos son repetibles, casi una gramática: desplazamiento de objetivos (cumplir el número aunque el usuario pierda), simulación (hacer “como si” sin resolver), selección de casos fáciles (excluir a los difíciles para no “bajar promedio”), inflación administrativa (más trámites para generar evidencia de desempeño) y manipulación de registros (reclasificar, cambiar definiciones, mover la frontera estadística). Hood lo documentó como “gaming” en regímenes de metas públicas: el personal aprende rápido qué número importa… y cómo alcanzarlo sin necesariamente mejorar el servicio.

En salud, el ejemplo clásico es brutal porque muestra el costo humano del “buen indicador”. En el NHS inglés, un objetivo de tiempos para primeras consultas incentivó a cumplir cancelando lo que no estaba medido: seguimientos. En Bristol, la propia evidencia citada por Bevan y Hood reporta que, al cumplir la meta mediante cancelaciones y demoras de seguimiento, al menos 25 pacientes habrían perdido la visión en dos años. El indicador “mejoró”; el servicio, para ciertos pacientes, empeoró de forma irreversible.

En educación, el patrón es igual de transparente: el examen deja de ser instrumento diagnóstico y se vuelve eje de supervivencia institucional. Bajo NCLB, Dee y Jacob estiman mejoras en matemáticas de 4º grado en NAEP con tamaño de efecto 0.22 para 2007, pero la literatura paralela advierte el costo: estrechamiento curricular, enseñanza orientada al formato del test, y presión por “producir puntajes” más que aprendizaje amplio. En el extremo, la distorsión cruza la línea: Jacob y Levitt detectan miles de episodios de trampa en Chicago, equivalentes a 4–5% de aulas por año, y señalan que la trampa responde a incentivos relativamente pequeños. Cuando el indicador decide reputación y sanción, aparece la economía clandestina del dato.

En seguridad pública, el “servicio” también puede desfigurarse. Si la métrica prioriza “bajar delitos registrados”, el sistema aprende a mover el delito entre categorías, desalentar reportes o redefinir lo contable. La literatura reciente lo modela como un problema de producción estratégica de datos: la agencia reporta para parecer eficaz, incluso cuando el reporte degrada la estadística como insumo de política. El resultado no es solo “datos sucios”; es mala asignación de recursos: patrullajes, detenciones y prioridades guiadas por lo que mejora la cifra, no por lo que reduce daño.

En América Latina, esta lógica es particularmente corrosiva porque convive con baja capacidad estatal, alta desigualdad y presión política por “resultados” rápidos. Metas de productividad (trámites resueltos, inspecciones realizadas, operativos ejecutados, beneficiarios incorporados) pueden empujar a un Estado que ya es frágil a comportamientos defensivos: filas “ordenadas” a costa de expulsar casos complejos; programas que maximizan cobertura nominal sin calidad; servicios que generan papel para auditoría más que soluciones para usuarios. El número luce; la experiencia ciudadana se deteriora.

La lección no es anti-métricas. Es anti-adoración. Medir puede ayudar, pero solo si se diseña para resistir el incentivo a engañar: métricas múltiples y balanceadas, auditorías aleatorias, verificación cualitativa, evaluación de efectos laterales, y protección del juicio profesional frente al fetiche del tablero. De lo contrario, la administración pública obtiene un triunfo barato: un buen reporte. Y la sociedad paga el costo real: servicios peores, pero perfectamente “medidos”.

Referencias

Bevan, G., & Hood, C. (2006). Have targets improved performance in the English NHS? BMJ, 332(7538), 419–422. https://doi.org/10.1136/bmj.332.7538.419

Campbell, D. T. (1976). Assessing the impact of planned social change (Occasional Paper Series No. 8). The Public Affairs Center, Dartmouth College.

Dee, T. S., & Jacob, B. (2009). The impact of No Child Left Behind on student achievement (NBER Working Paper No. 15531). National Bureau of Economic Research.

Goodhart, C. A. E. (1975). Problems of monetary management: The UK experience. Reserve Bank of Australia.

Hood, C. (2006). Gaming in targetworld: The targets approach to managing British public services. Public Administration Review, 66(4), 515–521. https://doi.org/10.1111/j.1540-6210.2006.00612.x

Jacob, B. A., & Levitt, S. D. (2003). Rotten apples: An investigation of the prevalence and predictors of teacher cheating. The Quarterly Journal of Economics, 118(3), 843–877.

Gibilisco, M., & Horz, C. M. (Working paper). Juking the stats: Policing, misreporting, and policy evaluation.