viernes, 21 de febrero de 2014

DISTRIBUCIÓN DE FRECUENCIAS

Distribución de frecuencias
En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría.1 Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas.
Una distribución de frecuencias es un formato tabular en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los [datos] y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representar gráficamente en un histograma (Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Frecuencia Simple (fi)
La frecuencia simple es el número de veces que aparece un determinado valor reportado en un estudio estadístico. Se representa por fi. La suma de las frecuencias simple es igual al número total de datos, que se representa por N. Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.
Σ fi = N (número total de datos de la distribución)
Frecuencia Relativa Porcentual (fr%)
 La frecuencia relativa porcentua es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento y se representa por fi. La suma de las frecuencias relativas es igual a 100.
Frecuencia Acumulada (fac)
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por fac.
Frecuencia Relativa Acumulada Porcentual (frac%)
La frecuencia relativa acumulada porcentual es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos expresada en tantos por ciento.

Distribución de frecuencias agrupadas

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua. Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente. Límites de la clase. Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.

La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase. La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.
REGLAS GENERALES PARA FORMAS DISTRIBUCIONES DE FRECUENCIAS PARA DATOS AGRUPADOS EN INTERVALOS
Cuando los datos contienen una gran cantidad de elementos, para facilitar los cálculos es necesario agruparlos, a estos grupos se los llama intervalos o clases. Un intervalo es una serie de números incluidos entre dos extremos, así por ejemplo, el intervalo 40 – 45 está formado por 40, 41, 42, 43, 44 y 45, siendo 40 el límite inferior, 45 el límite superior, 39,5 límite real inferior (límite inferior disminuido en 5 décimas) y 40,5 el límite real superior (límite superior aumentado en 5 décimas).
Las reglas generales para formas distribuciones de frecuencias para datos agrupados en intervalos son:
1) Calcule el Recorrido Verdadero (Rv).- También se llama rango o amplitud total. Es la diferencia entre el valor mayor y el menor de los datos.
2) Seleccione el Número Aproximado de Intervalos de Clase (ni).- No debe ser menor de 5 y mayor de 12, ya que un número mayor o menor de clases podría oscurecer el comportamiento de los datos. Para calcular la amplitud de los intervalos el valor del número de intervalos se ofrecerá como dato del eejercicio.
3) Calcule la Amplitud del Intervalo (i).- Se obtiene dividiendo el Recorrido Verdadero (Rv) entre el Número Aproximado de Intervalos de Clase (ni):
Se procede a calcular la Amplitud la Aproximada del Intervalo (≈)
i Rv / ni
Pudiendo resultar el valor de i de diferentes formas, esto quiere decir que no sea exacto o un numero expresado decimales, que sea entero par o un entero impar. Para efectos de nuestro curso estableceremos un criterio para poder decidir el valor de la amplitud del intervalo definitivo el cual nos permita costruir los intervalos de clases. Por ejemplo:
Si una distribución de 40 datos el valor mayor es 41 y el menor es 20 se tiene:
Calculando el Rango se obtiene:
Rv = Vmax – Vmin = 41 -20 = 21  (si la variable es discreta)
Rv = Vmax – Vmin + S = 41 -20 + 1 = 22   (si la variable es continua)
Siendo Vmax el valor máximo de los valores reportados,  Vmin el valor mínimo de los valores reportados y S la sensibilidad del conjunto de los datos.
Para este ejemplo supondremos que Número Aproximado de Intervalos de Clase (ni) es seis, (ni = 6)
Calculando, se obtiene:
i ≈ Rv / ni 22 / 6 3,67
Para determinar el valor final de la amplitud del intervalo aplicaremos e siguiente criterio (que llamaremos Regla de Oro):
1.    Si el valor calculado de i es un numero decimal, tomaremos el número impar más cercano a él.
2.    Si el valor calculado de i es un numero entero par, tomaremos el menor número impar cercano a él.
3.    Si el valor calculado de i es un numero entero impar, entonces el valor de i es igual al mismo valor calculado.
Aplicando la Regla de Oro para el ejemplo, al valor calculado de i, tenemos que es un numero decimal y al aplicar el primer criterio, se obtiene que: i = 3
4) Forme los Intervalos de Clase agregando i-1 al límite inferior de cada clase, comenzando por el Xmín del rango.
5) Se realiza el Conteo de Datos que cae dentro de cada clase (frecuencia absoluta)
6) Calcule el Punto Medio para cada Clase (Xi).- Es el valor del Punto Medio de cada clase, se obtiene sumando los límites superior (Lim. Sup) e inferior (Lim. Inf.) del intervalo y dividiendo ésta suma entre 2
Xi = (Lim. Sup. + Lim. Inf. ) / 2
7) Calcule las Frecuencias.

EJEMPLO ILUSTRATIVO
A 40 estudiantes se les pidió que estimen el número de horas que habrían dedicado a estudiar la semana pasada (tanto en clase como fuera de ella), obteniéndose los siguientes resultados
36
30
47
60
32
35
40
50
54
35
45
52
48
58
60
38
32
35
56
48
30
55
49
39
58
50
65
35
56
47
37
56
58
50
47
58
55
39
58
45

Solución:
1   Calculando el Recorrido Verdadero, se obtiene:
Rv = Vmax – Vmin + S = 65 -30 + 1 = 36

2    Consideremos que el número aproximado de intervalos es seis: ni = 6

3    Calculando el ancho se obtiene:
i ≈ Rv / ni 36 / 6 5,83

Aplicando la Regla de Oro para el ejemplo, al valor calculado de i, tenemos que el valor calculado es un numero decimal y por el primer criterio, se obtiene que:
 i = 5
4    Formando los intervalos de clase de amplitud cinco (i = 5) partiendo del Valor mínimo (Vmin.) de los valores reportado, es decir, el límite inferior del primer intervalo de clase, inicia con el menor valor reportado (Xmín) como Lim. Inf , y el Lim. Sup.  se obtiene contando tantas posiciones como lo indique la amplitud del intervalo ( i = 5).
Así el primer intervalo quedará así:
30 - 34

Realizando el conteo de datos que caen dentro de cada clase, es como determinamos el valor de las frecuencias simplies respectivas para cada intervalo. 

El resto de los valores correspondiente a la Fr% y Frac%, se obtiene de sustituir en las formulas los valores correspondientes para cada caso.

A continuación se presenta algunas interpretaciones de la tabla:
  • El valor de f =9: Significa que 8 estudiantes dedicaron a estudiar la semana pasada entre 30 y 35 horas.
  •  El valor de xi = 52: Significa que 5 estudiantes dedicaron en promedio a estudiar la semana pasada 52 horas.
  •  El valor de  f% = 22,5%: Significa que 22,5% de los estudiantes dedicaron a estudiar la semana pasada entre 35 y 39 horas.
  •  El valor de fac = 27: Significa que 27 estudiantes dedicaron a estudiar la semana pasada entre 30 y 54 horas.
  • El valor de frac% = 67,5%: Significa que 67,5% de los estudiantes dedicaron a estudiar la semana pasado entre 30 y 54 horas.