Firma páginas web


 

 

Nociones de Estadística


Introducción: La estadística es una rama de la Matemática que se ocupa de la recolección, organización, análisis e interpretación de datos. La información contenida en una gran cantidad de datos recolectados es muy difícil de obtener si no se realizan antes las tareas de organización, análisis e interpretación propios de la Estadística.

Es por esto que en muchas áreas del conocimiento, actualmente la Estadística resulta muy útil, y en algunas, hasta indispensable.
Por ejemplo, en las Ciencias Sociales se requiere con frecuencia estudiar el comportamiento o la situación de grupos humanos numerosos, y para ello, la Estadística resulta ser una herramienta fundamental.


Definiciones Básicas:
Con el objeto de definir algunos de los términos elementales que se usan en Estadística, se planteará el estudio de un fenómeno en particular, desde el punto de vista estadístico. Supóngase que se desea estudiar el fenómeno del rendimiento académico de los estudiantes de $ 2^{\circ}$ año de Ciencias de un cierto Liceo, en la asignatura de Física.


Población:
Se denomina 'población' del estudio estadístico, en este caso, al grupo de todos los estudiantes de $ 2^{\circ}$ año de Ciencias del Liceo en cuestión. Es importante observar que la palabra 'población', en Estadística, puede referirse a un conjunto de objetos y no necesariamente a un conjunto de personas o seres vivos en general. Por ejemplo, si se quiere hacer un estudio del estado en que se encuentran los pupitres de todo el Liceo, clasificándolos en tres categorías: inservible, reparable, y en buenas condiciones, en este caso la población estaría conformada por todos los pupitres que hay en el Liceo.

Muestra:
Cuando la población es muy numerosa, se hace difícil obtener y analizar la información proveniente de todos los individuos, y en ese caso se seleccionan algunos individuos representativos de la población para hacer el estudio estadístico. El grupo de individuos seleccionados se denomina muestra. En el caso del estudio sobre el rendimiento académico de los esudiantes de $ 2^{\circ}$ año de Ciencias, si se tratara de un Liceo pequeño con sólo una sección de cada curso, se tomaría toda la población para el estudio. Pero si se tratara de un Liceo muy grande, con 10 secciones de $ 2^{\circ}$ año de Ciencias, probablemente se tomaría una muestra, seleccionando unos 5, 10 ó 12 estudiantes de cada sección, según las posibilidades del equipo que realiza el estudio.

Variables estadísticas:
Las variables estadísticas son los datos que proporcionan los individuos de la población (o muestra) observada. Pueden ser cuantitativas, como en el caso del estudio del rendimiento académico, si se usa el dato de la nota definitiva que obtuvo cada alumno en la asignatura de Física. Siempre que la información esté dada a través de números, se considera que es una vairable cuantitativa. En el caso del estudio sobre el estado de los pupitres del colegio, se tiene una variable cualitativa, pues la información sobre cada pupitre no está dada en términos numéricos, sino que se ubica a cada uno en una de las categorías: inservible, reparable, en buenas condiciones.


Organización de Datos:
Se obtienen los siguientes datos al investigar acerca de las notas obtenidas en Física por los 35 estudiantes de $ 2^{\circ}$ año de Ciencias: 12, 06, 18, 10, 11, 11, 17, 09, 07, 10, 09, 15, 13, 03, 16, 12, 16, 10, 08, 05, 10, 13, 18, 11, 12, 03, 07, 09, 20, 14, 16, 10, 04, 09, 18. Un primer paso a tomar para la organización de esta información, de manera que se facilite su estudio, es el siguiente: se construye una tabla estadística, llamada tabla de frecuencias, en la cual se apreciará el número de estudiantes que obtuvo cada nota, desde 0 hasta 20: (ver la siguiente tabla)


A partir de esta tabla se pueden obtener representaciones gráficas del fenómeno estudiado, como por ejemplo un histograma, que se construirá más adelante. Sin embargo, hay varios aspectos del rendimiento académico del curso observado, que se hacen evidentes al organizar los datos como en la tabla anterior. Por ejemplo, el número de alumnos que tienen una nota inferior a 07 es 5 (2 sacaron 03, 1 sacó 04, 1 sacó 05 y 1 sacó 06). De estos 5 alumnos se puede decir que no aprendieron lo que se esperaba durante el curso.

Se puede considerar a los estudiantes con notas entre 07 y 11 como el grupo que logró aprender una parte de lo que se dió en el curso de Física, pero una parte importante de lo que debió aprender, no está entre sus conocimientos. En un nivel que podría llamarse satisfactorio, estarían los 11 estudiantes con notas entre 12 y 17, y el nivel de excelencia, lo alcanzaron sólo 4 estudiantes, con notas entre 18 y 20. Estas observaciones sugieren que también sería útil organizar la tabla de frecuencias de la manera siguiente:

Intervalos
Frecuencia Absoluta
0-07
5
07-12
15
12-18
11
18-20
4


Este tipo de tabla suele llamarse una distribución de frecuencias. En la columna de la izquierda se colocan intervalos de números que agrupan las notas que pueden ser obtenidas por los estudiantes. Los intervalos indican que los números a considerar en esa categoría son: el extremo inferior y todos los mayores que él y menores que el extremo superior. Por ejemplo, en el intervalo 0-07, se incluyen: 00, 01, 02, 03, 04, 05, 06. En el intervalo 12-18, se incluyen: 12, 13, 14, 15, 16, 17. Los intervalos son determinados por el criterio de quien hace el estudio estadístico.
Se podrían escoger de distintas maneras, por ejemplo:

Intervalos
Frecuencia absoluta
00-03
0
03-06
4
06-09
4
09-12
12
12-15
6
15-18
5
18-20
4

Las distintas maneras de distribuir las frecuencias de ocurrencia de las variables (en este caso, las notas) permiten observar el fenómeno desde distintos puntos de vista. El punto de vista que interesaba en la primera distribución, era el de la clasificación del grupo en 4 categorías: deficiente, regular, satisfactorio y excelente. En este último ejemplo, la distribución de frecuencias con intervalos de longitud igual a 3 es necesaria para obtener una clasificación más detallada de los estudiantes. Se observa, por ejemplo, que el intervalo (también llamado 'clase') donde hay un mayor número de estudiantes es el 09-12, esto es, el que incluye las notas 09, 10 y 11.


Frecuencia Relativa:
En las tablas de frecuencia construidas, se observa que la columna de las frecuencias se denomina 'Frecuencia absoluta'. El término 'absoluta' se refiere a que se trata simplemente de la frecuencia con que las variables estadísticas toman el valor o los valores indicados.
La frecuencia relativa, por otra parte, se refiere a la proporción de datos que caen en el intervalo dado con respecto al total de datos. Por ejemplo, tomando el caso de la última tabla de frecuencias, el intervalo 09-12 tiene una frecuencia absoluta de 12; su frecuencia relativa es, entonces, igual a:

$\displaystyle \frac{12}{35}$


Pues el total de datos (notas de estudiantes) es 35. Así, se tiene:

Frecuencia relativa
$\displaystyle =\frac{\mbox{Frecuencia absoluta}}{\mbox{N\'umero Total de datos}}$

La frecuencia relativa, como es una proporción, proporciones permite establecer una comparación entre la frecuencia de ocurrencia de ciertos datos y el número total de datos.

Por ejemplo, sabiendo que la frecuencia relativa del intervalo 18-20 es igual a $ \frac{4}{35}=0,11$, se puede concluir que una proporción muy pequeña de estudiantes tienen notas entre 18 y 20.



Frecuencia acumulada:
La frecuencia acumulada de un cierto valor o intervalo de valores (clase) se define como la suma de todas las frecuencias absolutas que preceden a la clase más la frecuencia absoluta de la clase en cuestión. Por ejemplo, en la tabla de frecuencias absolutas:

Clase
Frecuencia Absoluta
00-03
0
03-06
4
06-09
4
09-12
12
12-15
6
15-18
5
18-20
4

Se observa que la suma de las frecuencias absolutas de las tres primeras clases es: $ 0+4+4=8$; eso significa que la frecuencia acumulada de clase 06-09 es igual a 8. La frecuencia acumulada simplemente indica cuántos estudiantes tienen nota inferior a 09 en el curso analizado.

Representaciones Gráficas

Las distribuciones de frecuencias obtenidas en un estudio estadístico pueden representarse gráficamente de diversas maneras. Una de ellas es el histograma, el cual se utiliza cuando las variables estadísticas son cuantitativas, y se han distribuido por intervalos de clases.
Para construir un histograma, se utilizan los ejes de coordenadas cartesianas.


En el eje de las abscisas se indican los límites inferiores de todos los intervalos y el límite superior del último. En el caso de la distribución que se está estudiando, se tendría lo siguiente: (Ver figura de la derecha)
En el eje de las ordenadas, se indican los valores numéricos que toman las frecuencias absolutas; en el ejemplo anterior, se tendría: (Ver figura de la izquierda)

Luego, sobre cada intervalo de clase, se levanta un rectángulo de altura igual a su frecuencia. Tomando en cuenta la tabla de distribución de frecuencias obtenida en el ejemplo anterior, se construye el histograma siguiente:(Ver figura de la derecha)


(En la figura se observa que la clase 00-03 se ha eliminado porque su frecuencia absoluta es igual a cero y está en una extremo).

Gráfica poligonal:
Los datos que proporciona una distribución de frecuencias pueden interpretarse desde el punto de vista de las funciones. Por ejemplo, se observa la primera tabla elaborada a partir de las frecuencias absolutas de cada nota individual, que es la siguiente: (Ver la siguiente tabla)

Cada nota entre 00 y 20 puede tratarse como una variable independiente $ (x)$ y la frecuencia asociada como la variable dependiente ( $ f(x)$).

Así, por ejemplo

$ f(01)=0$
$ f(06)=1$ $ f(09)=4$ etc.


Se tiene ahora una función $ f:\{1,2,...,20\}\longrightarrow\{0,1,2,3,4,5\}$ cuya representación en el plano cartesiano es la siguiente:

Si se unen los puntos consecutivos a través de segmentos de rectas se obtiene una poligonal:


Otra manera de representar gráficamente los resultados de un estudio estadístico es la gráfica de sectores; ésta se utiliza para comparar dos grupos de datos. Por ejemplo, en el caso de las notas de los estudiantes, se puede dividir el grupo completo de notas en dos grandes subgrupos: el de los que son mayores o iguales a 10 y el de las que son inferiores a 10, es decir, los aprobados y los reprobados. Se tendría lo siguiente:

Reprobados:
12 Aprobados: 23

Como el número total de estudiantes es 35, ahora se calcula el porcentaje de aprobados y reprobados:

$\displaystyle \frac{12*100}{35}=34,2\approx 34$

Hay un $ 34\%$ de reprobados. Por lo tanto, hay un $ 66\%$ de aprobados.


La gráfica de sectores consiste en una representación, en un círculo, de las proporciones en que se encuentra cada grupo en relación al total de estudiantes. El total de estudiantes está representado por el círculo completo:

Para construir la gráfica de sectores, debe calcularse el ángulo que corresponde a cada porcentaje. Por ejemplo, para calcular el ángulo que corresponde a un sector que es $ 34\%$ del área del círculo, se establece la igualdad de proporciones:
$\displaystyle \frac{360}{100}=\frac{x}{34}$

Es decir:

$\displaystyle x=\frac{34*360}{100}=122,4\approx 122$

Así, un ángulo de $ 122^{\circ}$ corresponde al sector circular que ocupa el $ 34\%$ del área del círculo, y como $ 360^{\circ}-122^{\circ}=238^{\circ}$, el ángulo que corresponde al sector circular que ocupa el $ 66\%$ del círculo es $ 238^{\circ}$.  

Para efectos de una presentación de resultados a través de una gráfica de sectores, no se colocan las medidas de los ángulos como en la ilustración previa. Basta con señalar cuál grupo corresponde a cada sector.



Medidas de Posición:
Cuando se realiza un estudio estadístico con variables cuantitativas, las medidas de posición permiten precisar algunas de las propiedades numéricas más importantes de la distribución de frecuencias. Las medidas de posición más usadas son:
  1. Centro-recorrido.
  2. Moda.
  3. Mediana.
  4. Media aritmética.
Para ilustrar lo que cada una de estas medidas es y cómo se calcula, se utilizará el ejemplo dado anteriormente de la distribución de frecuencias de notas obtenidas en Física por un grupo de 35 estudiantes.

  1. Centro-recorrido: El centro-recorrido de una distribución es el punto medio del intervalo cuyos extremos son los valores mínimo y máximo de la variable estadística. Por ejemplo, en la distribución estudiada se tiene que los valores mínimo y máximo son 03 y 20, respectivamente. Así, el centro-recorrido de esa distribución es:

    Centro-recorrido
    $\displaystyle =\frac{3+20}{2}=\frac{23}{2}=11,5$

  2. Moda: La moda de una distribución es el dato que aparece con mayor frecuencia. En una distribución puede haber varias modas; en el caso que se está estudiando, se tiene que la moda es 10, pues es la nota que obtienen mayor número de alumnos (5 alumnos). Si se estudia una distribución en la cual la variable está agrupada en clases, se habla de 'clase modal' en lugar de 'moda'. Observando la distribución obtenida al agrupar las variables en clases:


    Clase
    Frecuencia Absoluta
    03-06
    4
    06-09
    4
    09-12
    12
    12-15
    6
    15-18
    5
    18-20
    4

    Se concluye que la clase modal en esta distribución es 09-12.

  3. Mediana: Habiendo ordenado los valores de la variable de menor a mayor, si hay un número impar de datos, hay uno central: el número de datos que le preceden es igual al número de datos que le siguen. El dato central es la mediana de la distribución. En el caso que se está considerando, hay 35 datos (notas). la nota que ocupa el lugar 18 es la mediana, pues hay 17 notas antes y 17 notas después: Se ubican las notas en orden creciente:03, 03, 04, 05, 06, 07, 07, 08, 09, 09, 09, 09, 10, 10, 10, 10, 10, 11 , 11, 11, 12, 12, 12, 13, 13, 14, 15, 16, 16, 16, 17, 18, 18, 18, 20. La mediana es 11, en este caso, pues ese es el dato que ocupa el lugar número 18. Cuando se trata de una distribución según clases, de igual manera que antes, se busca el dato que ocupa el lugar de la mediana y se dice que la clase mediana es aquélla a la cual pertenece la mediana encontrada. En este caso, como 11 pertenece a la clase 09-12, ésta es la clase mediana. Si el número de datos es par, ocurrirá que hay dos datos centrales. la mediana es la semisuma de ambos. Por ejemplo, si en el estudio anterior se omite el estudiante que obtuvo 20 puntos, la distribución tiene 34 datos, el 10 y el 11 ocupan los puestos centrales: 03, 03, 04, 05, 06, 07, 07, 08, 09, 09, 09, 09, 10, 10, 10, 10, 10 , 11 , 11, 11, 12, 12, 12, 13, 13, 14, 15, 16, 16, 16, 17, 18, 18, 18. Mediana:

    $\displaystyle \frac{10+11}{2}=\frac{21}{2}=10,5$

    La mediana es una medida que se refiere a la posición de los datos, y en algunas distribuciones, representa una especie de promedio.

  4. La media aritmética: Es la medida de posición más usada en los métodos estadísticos. Se obtiene sumando todos los datos y dividiento por el número de ellos. Para la distribución de notas, se titene que la media aritmética es:


    $\displaystyle \frac{3+3+4+5+6+7+7+8+9+9+9+9+10+10+10+10+10+11+11+11+}{35}$

    $\displaystyle \frac{+12+12+12+13+13+14+15+16+16+16+17+18+18+18+20}{35}=\frac{392}{35}=11,2$



    Para realizar la suma del numerador, es preferible, cada vez que un valor, por ejemplo $ k$,
    se repite, colocar $ n\cdot k$, donde $ n$ es el número de veces que se repite $ k$. Por ejemplo, en el
    caso anterior, se escribiría:


    $\displaystyle \frac{2(3)+4+5+6+2(7)+8+4(9)+5(10)+3(11)+3(12)+}{35}$

    $\displaystyle \frac{+2(13)+14+15+3(16)+17+3(18)+20}{35}$



    Aquí la media aritmética es $ 11,2\approx 11$, casi coincidente con la mediana. Hay otras
    distribuciones en las que la mediana y la media aritmética difieren mucho. Por ejemplo,
    supóngase que las notas de 11 alumnos son: 04, 05, 05, 06, 08, 08, 17, 17, 19, 20, 20. La
    mediana es 08 y la media aritmética es

    $\displaystyle \frac{4+5+5+6+8+8+17+17+19+20+20}{11}=11,8$


Medidas de Dispersión: Las medidas de dispersión de una distribución de frecuencias indican cómo están repartidos los datos alrededor de las medidas de posición que se tienen. Por ejemplo, en dos cursos diferentes de Física, secciones A y B, se toman a todos los estudiantes que obtuvieron entre 10 y 14 puntos, y se organizan las frecuencias en dos histogramas.

Variancia:
La variancia de una distribución, designada por $ s^2$, se calcula así: Si los datos son $ x_1$, $ x_2$, ..., $ x_n$ y la media aritmética es $ x$, la variancia será igual a:

$\displaystyle s^2=\frac{(x_1-x)^2+(x_2-x)^2+...+(x_n-x)^2}{n}$

Por ejemplo, en el caso de las dos distribuciones anteriores, se tiene: Variancia en la sección A:

$\displaystyle s_2=\frac{(10-12)^2+3(11-12)^2+5(12-12)^2+3(13-12)^2+(14-12}{13}=\frac{4+3+3+2}{13}=\frac{12}{13}$


Variancia en la sección B:

$\displaystyle s_3=\frac{2(10-12)^2+4(11-12)^2+(12-12)^2+4(13-12)^2+2(14-12)^2}{13}=\frac{8+4+4+8}{13}=\frac{24}{13}$



La diferencia entre las dos variancias ( $ \frac{24}{13}$ y $ \frac{12}{13}$) muestra en este caso la diferencia entre las dispersiones de las distribuciones respectivas.
La distribución de la sección A está más concentrada alrededor de la media aritmética, según se observa en el histograma:
y por eso su variancia es menor ( $ \frac{12}{13}\approx 0,9$).

Por otra parte, la distribución de la sección B está más dispersa en relación a la media aritmética:

Su variancia es mayor ( $ \frac{24}{13}\approx 1,8$) por esa razón.




Desviación estándar:
Esta medida de la dispersión de una distribución de frecuencias no es más que la raíz cuadrada de la variancia, y se denota por $ s$:

$\displaystyle s=\sqrt{\frac{(x_1-x)^2+(x_2-x)^2+...+(x_n-x)^2}{n}}$

En los ejemplos anteriores, se calculó $ s^2$ para las secciones A y B, obteniéndose:


$\displaystyle s^2=\frac{12}{13}$
   (sección A)
$\displaystyle s^2=\frac{24}{13}$ (sección B)

Así, $ s=\sqrt{\frac{12}{13}}\approx 0,95$ es la desviación estándar en la distribución de la sección A.$ s=\sqrt{\frac{24}{13}}\approx 1,34$. Muchos de los fenómenos biológicos y sociales que se estudian estadísiticamente, tienen una distribución denominada 'normal', cuyas características principales son:
  1. En el intervalo $ [\overline{x}-s,\overline{x}+s]$ están aproximadamente el $ 68\%$ de los datos. (Aquí $ \overline{x}$ es la media aritmética y $ s$ la desviación estándar)
  2. En el intervalo $ [\overline{x}-2s,\overline{x}+2s]$, están aproximadamente el $ 95\%$ de los datos.
La gráfica poligonal se asemeja a una curva en forma de campana, que se llama curva de Gauss o campana de Gauss, como en la figura.


Si se observa la gráfica poligonal de la distribución de frecuencias de notas de Física del grupo de 35 alumnos, se detecta que la mayor diferencia que hay entre esa poligonal y la campana de Gauss, en otras palabras, la mayor dificultad que se presenta para aproximar esa poligonal a la campana de Gauss, es el pico producido por 3 alumnos con 18 puntos:
Si la distribución de frecuencias fuese la siguiente: (Ver la siguiente tabla)


La gráfica poligonal sería:

Es fácil ver que, en este caso la media aritmética es $ \overline{x}=10,8\approx 11$ y que la desviación estándar es $ s=4$. En esta distribución, hay 25 estudiantes con notas entre 07 y 15 ( $ \overline{x}-s$ y $ \overline{x}+s$).

Este número de alumnos (25) corresponde al $ 71\%$ del total, que es cercano al $ 68\%$ requerido para ser considerada una distribución normal.



Referencias:
García, V. ,Villaseñor, R. y Waldegg, G. (1998), Matemáticas en contexto - segundo curso . México: Grupo Editorial Iberoamérica, S.A. de C.V.
Giménez, J. (2001). Matemática V . Caracas, Ediciones Eneva.
Paredes, B., Salcedo, A. (1997) . Matemáticas 7º . Caracas: Santillana.

 
 
 
 
Ver otras áreas:


Más Servicios de RENa

| Mapa del sitio | Equipo de trabajoWebmaster |

© Todos los Derechos Reservados por RENa Copyright 2008