miércoles, 4 de mayo de 2016

La mediana, el devorador de outliers

Todo el mundo sabe lo que es y para qué sirve la media de una serie de valores. Pero y la mediana?. Este indicador no es tan usado como se merece, cuando en ocasiones resulta un estadístico más adecuado y potente que la media.


Fuente: Wikipedia


Pongamos por ejemplo que tenemos una fuerza de ventas de cinco comerciales, y queremos asignarles objetivos de consecución en base al rendimiento en el primer mes de trabajo. En su corto histórico las ventas que han hecho son las siguientes:
  • Comercial 1: 16 ventas
  • Comercial 2: 15 ventas
  • Comercial 3: 20 ventas
  • Comercial 4: 43 ventas
  • Comercial 5: 18 ventas

Un primer impulso nos llevaría a calcular la media: 22,4 ventas a exigir por comercial en meses sucesivos.

Pero si miramos detenidamente veremos que el comercial 4 se aparta claramente de todos los demás con 43 ventas. Este vendedor, que puede considerarse un outlier en la serie, muy posiblemente logró ese ratio de ventas no tanto por una destacada habilidad comercial sino gracias a algún cisne negro (evento impredecible de baja probabilidad y alto impacto), por ejemplo que además de sus ventas normales le hubiera colocado el seguro a toda la flota de vehículos de la empresa de su padre, algo que no podrá volver a repetirse.

En cualquier caso no sería justo que todos los comerciales acaben con un objetivo excesivamente exigente debido a la actividad puntual de uno solo de ellos. Si calculamos la mediana o valor central del conjunto de datos ordenado: (15, 16, 18, 20, 43), veremos que un objetivo de 18 ventas elimina por completo el efecto del outlier, que sí participó en cambio en el cálculo de la media estirándola hacia valores casi un 25% más altos que la mediana.



Veamos otro ejemplo. Deseamos caracterizar el ingreso medio o ARPU típico de nuestra cartera de clientes:
  • Cliente 1: 25 EUR
  • Cliente 2: 350 EUR
  • Cliente 3: 21 EUR
  • Cliente 4: 18 EUR
  • Cliente 5: 22 EUR

Podemos sucumbir de nuevo a la media: 87,20 EUR. Pero es este valor realmente representativo de la cartera? o por el contrario los 350 EUR que gasta cada mes Cristiano Ronaldo en llamadas internacionales están falseando el dato?.

Probemos ahora la mediana: (18, 21, 22, 25, 350). Esos 22,00 EUR representan mucho mejor el perfil del cliente tipo de nuestra cartera que los 87,20 EUR de la media.



Usando la media como indicador, el outlier estaba haciéndonos creer que el grueso de nuestros clientes se mueve entorno a una horquilla de consumo unas cuatro veces por encima de la real.

Pese a lo visto la mediana no está exenta de limitaciones. En este segundo ejemplo, multiplicar el volumen de cartera por la mediana no nos dará el ingreso real. Para ello hay que acudir inevitablemente a la media:

5 · 87,20 = 25 + 350 + 21 + 18 + 22

Por su naturaleza, la mediana tampoco permite dar más o menos peso en el cálculo a ciertos valores de la serie, con el fin de modular su influencia en el resultado. Esto es algo que en cambio resulta trivial haciendo una media ponderada.

En general la mediana es un indicador más robusto a la hora de hacer predicciones basadas en datos conocidos (concepto de tendencia BAU o Business As Usual), y también para cuantificar perfiles de comportamiento (concepto de cliente promedio), pues nos inmuniza frente a valores alejados de lo esperable en la fuente. La media es por el contrario el estadístico apropiado cuando se han de cuadrar las cuentas, típicamente cuando hay dinero por medio.

No hay comentarios:

Publicar un comentario

Por claridad del blog, por favor trata de utilizar una sintaxis lo más correcta posible y no abusar del uso de emoticonos, mayúsculas y similares.