Tablas de distribución de frecuencias

TDF
3.2 Tablas de distribución de frecuencias (TDF)
Para estudiar cada variable y extraer de ella toda la información que la misma pueda ofrecer, conviene organizarlas y agruparlas en tablas.
De esta manera los datos de una variable se agrupan en tablas dependiendo de la clasificación de las mismas. Esto es, hay tablas de distribución de frecuencia (TDF), para variables nominales, ordinales y continuas o reales.
3.2.1 Tablas de distribución de frecuencias para una variable Nominal
Cuando se requieren agrupar los datos de una variable nominal, se construye una tabla con tres (3) columnas y el número de filas depende del número de respuestas diferentes que tenga la variable.
En la primera columna van las categorías o respuestas obtenidas en la segunda columna, la frecuencia absoluta denotada por fi y corresponde al número de veces que corresponde cada categoría, finalmente, en la tercera columna, la frecuencia relativa denotada por hi(%) la cual corresponde al porcentaje de cada categoría, con respecto al total de datos, aunque algunos autores la presentan en números decimales, en lugar de porcentaje. La tabla N°2, muestra la TDF para la variable “Cargo que desempeña”.
Tabla 2: TDF para la variable “Cargo”
Cargo | fi | hi |
Docente | 5 | 20,00% |
Celador | 4 | 16,00% |
Secretaria | 5 | 20,00% |
Juez | 4 | 16,00% |
Abogado | 3 | 12,00% |
Aseador | 3 | 12,00% |
Gerente | 1 | 4,00% |
Note que la suma total de las frecuencias absolutas da como resultado el número total de datos (n) y la suma total de todas las frecuencias relativas da como resultado el 100% de los datos. Algunas interpretaciones que se pueden hacer de la tabla N°2 son:
- (fi): Cinco clientes de la compañía de seguros “la tranquilita” son docentes.
- (h4): Un 16% de los clientes de la compañía de seguros, se desempeñan como Jueces.
3.2.2 Tablas de distribución de frecuencias para una variable Ordinal
Para construir una TDF de una variable ordinal, se anexan dos columnas a las TDF de las variables nominales, las cuales corresponden a:
- La Frecuencia Absoluta Acumulada denotada por Fi, y en la cual se van acumulando las frecuencias absolutas de las j-categorías, esto es,
- La Frecuencia Relativa Acumulada denota por Hi, y en el cual se van acumulando las frecuencias de las j-categorías, esto es,
Se deben tener en cuenta que en la primera columna, correspondiente a la frecuencia absoluta, fi, los datos de la variable deben ir en orden ascendente. En la tabla N°3 se ilustra una TDF para este tipo de variable.
Tabla 3: TDF para la variable “Estrato”
Categorías | fi | hi | Fi |
Hi |
2 | 4 | 16,00% | 4 | 16,00% |
3 | 6 | 24,00% | 10 | 40,00% |
4 | 7 | 28,00% | 17 | 68,00% |
5 | 6 | 24,00% | 23 | 92,00% |
6 | 2 | 8,00% | 25 | 100,00% |
Algunas interpretaciones que se pueden hacer de la tabla N°3 son:
- (f2): 6 clientes de la compañía de seguros “La tranquilita” viven en estrato 3.
- (h5): Un 8% de los clientes de la compañía de seguros, viven en estrato 2.
- (F3): 17 clientes de la compañía “La tranquilita”, viven como máximo, en estrato 4.
- (H4): 5 es el máximo estrato en que viven el 92% de los clientes.
Ejercicio 2
Note que en las dos últimas interpretaciones aparece la palabra Máximo, es para usted reflexione al respecto.
3.2.3 Tablas de distribución de frecuencias para una variable Real o cuantitativa
Para construir una TDF de una variable real se requiere conocer si existen pocos o muchos datos diferentes, por que dependiendo de esto los datos deben o no agruparse.
Cuando una variable es real y tiene pocas categorías diferentes, su TDF es exactamente igual a la de una variable ordinal. La tabla 4 nos muestra un ejemplo de este tipo e variable.
Tabla 4: TDF para la variable “Obligación familiar”
Categorías | fi | hi | Fi |
Hi |
0 | 4 | 16,00% | 4 | 16,00% |
1 | 6 | 24,00% | 10 | 40,00% |
2 | 8 | 32,00% | 18 | 72,00% |
3 | 2 | 8,00% | 20 | 80,00% |
4 | 3 | 12,00% | 23 | 92,00% |
5 | 2 | 8,00% | 25 | 100,00% |
Algunas interpretaciones para esta tabla son:
- (f1): 4 de los clientes de la compañía de seguros “la tranquilita” no tienen ninguna persona a cargo.
- (h3): Un 32% de los clientes de la compañía de seguros tiene 2 personas a cargo.
- (F4): 20 clientes de la compañía “la tranquilita”, tienen, como máximo, 3 personas a cargo.
- (H5): Hasta 4 es el número de personas a cargo que tiene el 92% de los clientes de la compañía
- .
Ejercicio 3
El resaltado en las dos ultimas interpretaciones, es para que Usted reflexione al respecto.
3.2.4 TDF para variables con datos agrupados
Cuando una variable es real y tiene muchos datos diferentes, es necesario agruparlos en intervalos, y en este caso la tabla de distribución para datos agrupados, consta de una columna adicional, correspondiente a la Marca de Clase (Yi), la cual se define como:
Ei es el extremo inferior del i-ésimo intervalo, y
Si es el extremo superior del i-ésimo intervalo.
m es el número de intervalos.
Usualmente se trabajan con intervalos del tipo cerrado-abierto [ ), esto indica que la cantidad que se encontrara en el extremo inferior del intervalo Ei, sera tenida en cuenta para contar la frecuencia absoluta, en tanto que la cantidad se encontrara en el extremo superior del intervalo Si, no se contará en ese intervalo. Para tener idea del número de intervalos m que se deben construir, se usan dos fórmulas empíricas que son:
m = 1 + 3.3log(n), o, m ≈ √n.
Ahora, para saber cuanto es la amplitud A de cada uno de los m intervalos, se debe tener en cuenta que estos no necesariamente son de igual amplitud, aunque generalmente así se presenten en los textos. En este último caso, la fórmula para calcular la amplitud A es : A = Sm − E1m, donde Sm es el dato mayor y E1 es el dato menor.
También debe tener presente que al terminar de elaborar los intervalos, al último de ellos se les debe sumar siempre una unidad a Si, porque siempre quedaría por fuera el último dato debido a la forma como se construyen los intervalos, esto se aclara mas adelante.
Un aspecto fundamental al construir una tabla de intervalos, es que ningún intervalo tenga frecuencia cero, si esto sucede, se debe reducir el número de intervalos. La tabla N°5 y los pasos siguientes, ilustran lo enunciado anteriormente.
La tabla 5 se elabora con los datos de la variable “Salario”, para esto se tiene que:
según esto, el extremo superior del último intervalo sería 4’508748, pero en este intervalo no alcanzaría a cubrirse el dato mayor, por esta razón se aumentan 3 unidades, así el extremo superior resulta ser 4’508,751.
Tabla 5: Tabla de intervalo para la variable “Salario”
intervalos | fi | hi | Fi |
Hi | Yi |
[485,068-1’289,804) | 12 | 48,00% | 12 | 48,00% | 887,436 |
[1’289,804-2’094,540) | 2 | 8,00% | 14 | 56,00% | 1’692,172 |
[2’094,540-2’899,276) | 4 | 16,00% | 18 | 72,00% | 2’496,908 |
[2’899,276-3’704,012) | 4 | 16,00% | 22 | 88,00% | 3’301,644 |
[3’704,012-4’508,751) | 3 | 12,00% | 25 | 100,00% | 4’106,381,5 |
Algunas interpretaciones para esta tabla son:
- (f2): 2 de los clientes de la compañía de seguros “La tranquilita” tienen ingresos entre $1’289.804 y $2’094.540 pesos.
- (h4): Un 16% de los clientes de la compañía de seguros ganan de $2’899.276 a $3’704.012 pesos.
- (F4): 22 clientes de la compañía “La tranquilita”, como máximo, ganan $3’704.012 pesos.
- (H4): Un 72% de las personas afiliadas a la compañía de seguros, ganan hasta $2’899.276 pesos.
- (Y3): 4 clientes de la aseguradora “La tranquilita” ganan en promedio $4’106.381 pesos.
Ejemplo 2
En la tabla 6 se muestra la distribución de intervalos de la vida útil de 400 lamparas de alumbrado, probadas en el laboratorio de la fabrica <<J&A>>.
Tabla 6: Tabla de intervalo para la variable “Vida útil”
Vida media/horas | fi | hi | Fi |
Hi | Yi |
[350-450) | 15 | 4,00% | 15 | 4,00% | |
[450-550) | 45 | 11,00% | 60 | 15,00% | |
[550-650) | 60 | 15,00% | 120 | 30,00% | |
[650-750) | 72 | 18,00% | 192 | 48,00% | |
[750-850) | 65 | 16,00% | 157 | 64,00% | |
[850-950) | 61 | 15,00% | 318 | 80,00% | |
[950-1050) | 50 | 13,00% | 368 | 92,00% | |
[1050-1150) | 24 | 6,00% | 392 | 98,00% | |
[1150-1250) | 8 | 2,00% | 400 | 100,00% | |
De aquí se puede deducir información útil: el 98% de las lámparas tiene una vida útil menor o igual a 1150 horas, solo el 15% de las lámparas tiene una vida útil inferior a 550 horas, 72 lámparas tiene una vida útil entre 650 y 750 horas, apenas el 2% de las lámparas tiene una vida útil mayor a 1150 horas, el 52% de las lámparas tiene una vida útil superior a 750 horas.
Ejercicio 4
Identifique en la tabla 6 cuales datos han sido analizados y complete la con la columna faltante, interprete ademas Y5 y Y2
Obra colocada bajo licencia GNU Free Documentation License