Vivimos en la era de la información, bombardeados de datos, estudios y encuestas, sin embargo ¿qué conclusiones se pueden extraer de éstas?
Tal y como debemos saber, un poco de física, para comprender los fenómenos que nos rodean y biología para entender nuestro cuerpo; la estadística es esencial para analizar los datos e información que disponemos, el objetivo de este artículo es entregarle algunas herramientas esenciales de estadística que le permitan navegar de mejor manera en este mar de datos y encuestas.
Muestreo y representatividad
La mayoría de los datos que conocemos provienen de encuestas y sondeos. Las encuestas son cuestionarios respondidos por un subconjunto de personas de una población, sobre temas en particular, sin embargo, pretenden inferir que ocurre en el grupo total. Este subconjunto se denomina muestra. Así, es esencial conocer cómo fueron elegidos los miembros de la muestra, al momento de intentar analizar la población completa. ¿Fueron seleccionados al azar? ¿Fueron tratados de representar diferentes grupos? ¿Se tomó solamente en Santiago? ¿Fue una encuesta telefónica? Puede notar inmediatamente que, dependiendo de cómo fue seleccionada la muestra, va a determinar sobre quienes podemos realizar conclusiones válidas, sobre dicha muestra y su representatividad.
Tendencia central y dispersión
Una vez que se tiene la muestra, el primer paso es describir los datos, representarlos de una forma útil, se puede realizar un resumen gráfico, pero me centraré en lo numérico. Esto consiste en calcular ciertas características básicas de un conjunto de información. El promedio, o media, es el elemento más reportado cuando se tiene una encuesta, o análisis de datos estadísticos. Éste es un valor característico de un conjunto de valores. La idea es representar un valor típico o el que es probable que se obtenga de un conjunto de información. El promedio es lo que se llama una medida de tendencia central.
Por ejemplo, tal vez los orientadores escolares invitaron a jóvenes que están evaluando qué carrera estudiar en la educación superior, a revisar el sitio web del Ministerio de Educación: www.mifuturo.cl, para conocer la empleabilidad e ingresos de distintas carreras. Para Ingeniería Comercial PUCV, el ingreso promedio al cuarto año de egreso, es de 1,6 a 1,7 millones de pesos mensuales. ¿Quiere decir eso que todos ganan esa cantidad? ¡Claro que no! Al considerar a todas las personas de la muestra, sumar sus ingresos y dividir por el número de encuestados dará ese valor. Es una medida que indica a qué tiende el ingreso, por eso se llama media muestral, al ser la media de una muestra de personas. Hay otras medidas de tendencia central: El ingreso más común, sería la moda y si ordenamos a todos los encuestados por su ingreso de mayor a menor, el que esté justo en el centro es la mediana.
En su frase: "Hay dos panes. Usted se come dos. Yo ninguno. Consumo promedio: un pan por persona"; Nicanor Parra magistralmente explica que el promedio no es suficiente para entender la realidad, se requiere incorporar su dispersión. La más común de estas medidas de dispersión es la desviación estándar: indica cuánto tienden a alejarse de la media, los valores de la muestra, en promedio. Volviendo a la frase de Don Nicanor, en promedio cada una de nuestras personas está separada de la media, de un pan, en exactamente un pan, por lo cual su desviación estándar es 1. ¿Puede ver su importancia? Volviendo a la información presentada en www.mifuturo.cl, deberíamos revisar la desviación estándar de los ingresos, pero esta información no está presente en la página.
Correlación y causalidad
Un último punto que me gustaría mencionar es el dilema de la correlación y causalidad. Muchas veces el objetivo de un estudio es decir "si usted hace esto, entonces ocurrirá lo siguiente", buscando causas y efectos o causalidad. Sin embargo, muchas veces, inferir este tipo de relaciones de los datos nos puede llevar a conclusiones equivocadas. El caso más tristemente famoso es el de la Polio. Ésta es una enfermedad bastante grave, y común hace 100 años, hoy casi erradicada. Existía una fuerte creencia que la Polio era consecuencia del consumo de helados, por ridículo que suene. Esta relación se fundamentaba en que los casos de polio eran muy comunes en verano, donde más se consume helados. Esta asociación, entre la tendencia del consumo de helados, y la aparición de la polio, es lo que se llama una correlación, los datos parecen que se mueven juntos. Sin embargo, así como hoy sabemos que consumir helados no dará polio, para llegar a relaciones causales necesitamos mucho más que una simple asociación aparente de datos, pero éste es tema para otro artículo.