Distribución de frecuencias
En
estadística, se le llama distribución de frecuencias a la agrupación de datos
en categorías mutuamente excluyentes que indican el número de observaciones en
cada categoría.1 Esto proporciona un valor añadido a la agrupación de datos. La
distribución de frecuencias presenta las observaciones clasificadas de modo que
se pueda ver el número existente en cada clase. Estas agrupaciones de datos
suelen estar agrupadas en forma de tablas.
Una
distribución de frecuencias es un formato tabular en la que se organizan los
datos en clases, es decir, en grupos de valores que describen una característica
de los [datos] y muestra el número de observaciones del conjunto de datos que
caen en cada una de las clases.
La
tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En
principio, en la tabla de frecuencias se detalla cada uno de los valores
diferentes en el conjunto de datos junto con el número de veces que aparece, es
decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la
denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el
total de datos. En variables cuantitativas se distinguen por otra parte la
frecuencia simple y la frecuencia acumulada.
La
tabla de frecuencias puede representar gráficamente en un histograma (Diagrama
De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el
horizontal los intervalos de valores.
La
distribución de frecuencias o tabla de frecuencias es una ordenación en forma
de tabla de los datos estadísticos, asignando a cada dato su frecuencia
correspondiente.
Frecuencia
Simple (fi)
La
frecuencia simple es el número de veces que aparece un determinado valor
reportado en un estudio estadístico. Se representa por fi. La suma de las
frecuencias simple es igual al número total de datos, que se representa por N.
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma
mayúscula) que se lee suma o sumatoria.
Σ fi
= N (número total de datos de la distribución)
Frecuencia
Relativa Porcentual (fr%)
La frecuencia relativa porcentua es el
cociente entre la frecuencia absoluta de un determinado valor y el número total
de datos. Se puede expresar en tantos por ciento y se representa por fi. La
suma de las frecuencias relativas es igual a 100.
Frecuencia
Acumulada (fac)
La
frecuencia acumulada es la suma de las frecuencias absolutas de todos los
valores inferiores o iguales al valor considerado. Se representa por fac.
Frecuencia
Relativa Acumulada Porcentual (frac%)
La
frecuencia relativa acumulada porcentual es el cociente entre la frecuencia
acumulada de un determinado valor y el número total de datos expresada en tantos
por ciento.
Distribución
de frecuencias agrupadas
La
distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si
las variables toman un número grande de valores o la variable es continua. Se
agrupan los valores en intervalos que tengan la misma amplitud denominados
clases. A cada clase se le asigna su frecuencia correspondiente. Límites de la
clase. Cada clase está delimitada por el límite inferior de la clase y el
límite superior de la clase.
La
amplitud de la clase es la diferencia entre el límite superior e inferior de la
clase. La marca de clase es el punto medio de cada intervalo y es el valor que
representa a todo el intervalo para el cálculo de algunos parámetros.
REGLAS GENERALES PARA FORMAS
DISTRIBUCIONES DE FRECUENCIAS PARA DATOS AGRUPADOS EN INTERVALOS
Cuando
los datos contienen una gran cantidad de elementos, para facilitar los cálculos
es necesario agruparlos, a estos grupos se los llama intervalos o clases. Un
intervalo es una serie de números incluidos entre dos extremos, así por
ejemplo, el intervalo 40 – 45 está formado por 40, 41, 42, 43, 44 y 45, siendo
40 el límite inferior, 45 el límite superior, 39,5 límite real inferior (límite
inferior disminuido en 5 décimas) y 40,5 el límite real superior (límite
superior aumentado en 5 décimas).
Las
reglas generales para formas distribuciones de frecuencias para datos agrupados
en intervalos son:
1) Calcule el Recorrido Verdadero (Rv).- También se llama rango o amplitud total. Es la diferencia entre el valor mayor y el menor de
los datos.
2) Seleccione el Número Aproximado de
Intervalos de Clase (ni).- No
debe ser menor de 5 y mayor de 12, ya que un número mayor o menor de clases
podría oscurecer el comportamiento de los datos. Para calcular la amplitud de
los intervalos el valor del número de intervalos se ofrecerá como dato del
eejercicio.
3) Calcule la Amplitud del Intervalo (i).- Se obtiene dividiendo el Recorrido Verdadero (Rv) entre el Número Aproximado
de Intervalos de Clase (ni):
Se
procede a calcular la Amplitud la Aproximada del Intervalo (≈)
i ≈
Rv / ni
Pudiendo
resultar el valor de i de diferentes
formas, esto quiere decir que no sea exacto o un numero expresado decimales,
que sea entero par o un entero impar. Para efectos de nuestro curso
estableceremos un criterio para poder decidir el valor de la amplitud del
intervalo definitivo el cual nos permita costruir los intervalos de clases. Por
ejemplo:
Si
una distribución de 40 datos el valor mayor es 41 y el menor es 20 se tiene:
Calculando
el Rango se obtiene:
Rv =
Vmax – Vmin = 41 -20 = 21
(si la variable es discreta)
Rv =
Vmax – Vmin + S = 41 -20 + 1 = 22 (si la variable es continua)
Siendo
Vmax el valor máximo de los valores reportados, Vmin el valor mínimo de los valores
reportados y S la sensibilidad del conjunto de los datos.
Para
este ejemplo supondremos que Número Aproximado de Intervalos de Clase (ni) es seis, (ni = 6)
Calculando,
se obtiene:
i ≈ Rv / ni ≈ 22 / 6 ≈ 3,67
Para
determinar el valor final de la amplitud del intervalo aplicaremos e siguiente criterio
(que llamaremos Regla de Oro):
1. Si
el valor calculado de i es un numero decimal, tomaremos el número impar más
cercano a él.
2. Si
el valor calculado de i es un numero entero par, tomaremos el menor número
impar cercano a él.
3. Si
el valor calculado de i es un numero entero impar, entonces el valor de i es
igual al mismo valor calculado.
Aplicando
la Regla de Oro para el ejemplo, al
valor calculado de i, tenemos que es un numero decimal y al aplicar el primer
criterio, se obtiene que: i = 3
4)
Forme los Intervalos de Clase agregando i-1 al límite inferior de cada clase,
comenzando por el Xmín del rango.
5)
Se realiza el Conteo de Datos que cae dentro de cada clase (frecuencia
absoluta)
6)
Calcule el Punto Medio para cada Clase (Xi).- Es el valor del Punto Medio de
cada clase, se obtiene sumando los límites superior (Lim. Sup) e inferior (Lim.
Inf.) del intervalo y dividiendo ésta suma entre 2
Xi =
(Lim. Sup. + Lim. Inf. ) / 2
7)
Calcule las Frecuencias.
EJEMPLO ILUSTRATIVO
A 40 estudiantes se
les pidió que estimen el número de horas que habrían dedicado a estudiar la
semana pasada (tanto en clase como fuera de ella), obteniéndose los siguientes
resultados
36
|
30
|
47
|
60
|
32
|
35
|
40
|
50
|
54
|
35
|
45
|
52
|
48
|
58
|
60
|
38
|
32
|
35
|
56
|
48
|
30
|
55
|
49
|
39
|
58
|
50
|
65
|
35
|
56
|
47
|
37
|
56
|
58
|
50
|
47
|
58
|
55
|
39
|
58
|
45
|
Solución:
1 Calculando el Recorrido Verdadero, se
obtiene:
Rv
= Vmax – Vmin + S = 65 -30 + 1 = 36
2 Consideremos que el número aproximado de
intervalos es seis: ni = 6
3 Calculando el ancho se obtiene:
i ≈ Rv / ni ≈ 36 / 6 ≈ 5,83
Aplicando la Regla de Oro para el ejemplo, al valor
calculado de i, tenemos que el valor calculado es un numero decimal y por el
primer criterio, se obtiene que:
i = 5
4 Formando los intervalos de clase de
amplitud cinco (i = 5) partiendo del Valor mínimo (Vmin.) de los
valores reportado, es decir, el límite inferior del primer intervalo de clase, inicia
con el menor valor reportado (Xmín) como Lim. Inf , y el Lim. Sup. se obtiene contando tantas posiciones como lo
indique la amplitud del intervalo ( i = 5).
Así el primer intervalo quedará así:
30 - 34
Realizando el conteo de datos que caen dentro de cada clase, es como
determinamos el valor de las frecuencias simplies respectivas para cada intervalo.
El resto de los valores correspondiente a la Fr% y Frac%, se obtiene de
sustituir en las formulas los valores correspondientes para cada caso.
A continuación se presenta algunas interpretaciones de la tabla:
- El valor de f =9: Significa que 8 estudiantes dedicaron a estudiar la semana pasada entre 30 y 35 horas.
- El valor de xi = 52: Significa que 5 estudiantes dedicaron en promedio a estudiar la semana pasada 52 horas.
- El valor de f% = 22,5%: Significa que 22,5% de los estudiantes dedicaron a estudiar la semana pasada entre 35 y 39 horas.
- El valor de fac = 27: Significa que 27 estudiantes dedicaron a estudiar la semana pasada entre 30 y 54 horas.
- El valor de frac% = 67,5%: Significa que 67,5% de los estudiantes dedicaron a estudiar la semana pasado entre 30 y 54 horas.