Probabilidad,
significancia, rangos
Hasta ahora he usado la probabilidad sin definirla realmente. ¿Por qué hablamos de la probabilidad si los hechos suceden o no suceden? Una probabilidad es una expresión de cuán posible pensamos que es un evento. No es una gran definición, utilizando "posible" (puedes decir que es un argumento circular). Otra definición se refiere a la probabilidad como la fracción de veces que un evento puede ocurrir si repites el experimento para siempre. Así que si arrojas una moneda un millón de veces, pretendes que cerca de medio millón caiga cara. La probabilidad de cara es medio millón dividido por un millón, o 0,5, o 50%.
1. ¿Cuál es la probabilidad de lograr un seis en un dado de seis lados?
(Respuesta: Todos los lados son igualmente probables, y son seis, por lo tanto la respuesta es 1/6)
Ahora, si arrojamos una moneda un millón de veces, pretendemos cerca de medio millón de caras. ¿Pero qué pasa si la arrojamos sólo tres o cuatro veces? Inténtalo si tienes una moneda. Probablemente no obtendrás dos caras y dos secas (o cruces). Y seguramente no será una cara y media. Ese es el problema de la probabilidad y una de las trampas de las estadísticas.
Digamos que una compañía de tabaco, llamémosla Fill Morse, quería probar a su público que sus cigarrillos no provocan cáncer. Morse puede buscar cinco fumadores, encontrar que uno de ellos tiene cáncer, y decir: "El 80% de los fumadores de cigarrillos Fill Morse no se enferman de cáncer, dice un nuevo estudio". Esto no da una medida de la verdadera probabilidad de incidencia de cáncer en fumadores.
2. ¿Qué tipo de estudio se necesitaría para llegar a una conclusión acerca del cáncer? ¿Qué evidencia se necesitaría, qué comparaciones deberían hacerse?
Los estadísticos hablan de distribuciones de probabilidad. Hablan sobre todo de la distribución normal, o de (ya estamos listos para esto) la curva de campana. Una de las ideas de la estadística es que si tienes un gran grupo de muestras y la variación entre ellas es pequeña (como si midiésemos las alturas de los hombres estadounidenses, por ejemplo), tiene una distribución normal. Esto significa que la media, la mediana y la moda tienen el mismo valor y tienen la más alta probabilidad de ocurrir , con menores posibilidades a medida que te alejas de la media (en otras palabras, la mayoría de los hombres tienen una altura "promedio" y los hombres realmente muy altos o muy bajos son raros).
3. ¿Es normal la distribución de la riqueza? ¿Lo es la distribución de los ingresos? (Consejo: ¿tiene la mayoría de la gente unos ingresos "promedio", si el promedio es la media?)
La distribución normal se ve así: ésta tiene una media ("mean") de cero y una desviación stándard ("standard deviation) de diez.

Pero hay distintos tipos de distribuciones normales. La temperatura en dos
ciudades puede tener distribuciones normales con medias similares, pero el
clima en una ciudad, llamémosla Variable, puede ser mucho más
variable que en otra, llamémosla Estable. Las distribuciones quedarían
así:

El punto es que el promedio, por sí mismo, no dice mucho (como lo habrás
visto en el debate sobre promedios más arriba). Por eso es que los
estadísticos hablan de desviación estándar y significancia.
Examinemos otro ejemplo: Las encuestas de opinión que se llevan a cabo todo el tiempo preguntando "¿Apoya usted el bombardeo del país indefenso X?" o algo parecido. Los resultados son algo así como 60% no, y el 40% sí. Y la nota al calce dice algo como "resultados válidos dentro del 1%, 19 de 20 veces".
El 1% es la desviación.
Las 19 de 20 veces son la significancia.
Esto quiere decir que si tomas una nueva muestra habrá un 95% de posibilidades
(19 de 20 veces) de que la respuesta sea entre el 59 y 61% no y entre el 39
y 41% sí. En otras palabras, los encuestadores tiene bastante confianza
de que su muestra no está sesgada y representa a la población.
La desviación estándar del examen de Coeficiente Intelectual ("IQ") de Stanford Binet es 3. El examen parte de la premisa de una distribución normal. La distribución normal implica que si el test te indicó que tienes 100 puntos de Coeficiente Intelectual (para empezar por los tontos), hay sólo un 68% de posibilidades de que tu coeficiente "real" esté entre 97 y 103. Hay 95% de posibilidades de que esté entre 94 y 106 y a medida que aumentas la franja, aumentan las probabilidades de que tu valor sea incluido.
Estas no son las mejores explicaciones para el fenómeno, pero lo importante es reconocer que estos números de desviación estándard y significancia son los que te dicen cuánto puedes confiar en un promedio. Rara vez se incluyen en las estadísticas (excepto cuando la gente que te las da no se ve perjudicada, como en las encuestas de opinión), lo que significa que no puedes confiar nunca en un promedio.