miércoles, 16 de diciembre de 2020

CLASE4

 FECHA: 10 / 12 / 2020

TEMA:





CLASE6

 

MEDIDAS DE TENDENCIA CENTRAL CON DATOS AGRUPADOS SI SE CONOCE LA TABLA DE FRECUENCIA

https://www.youtube.com/watch?v=5bZXpfxwHqk

Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda. Las medidas de dispersión en cambio miden el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto permiten describir un conjunto de datos entregando información acerca de su posición y su dispersión.

Los procedimientos para obtener las medidas estadísticas difieren levemente dependiendo de la forma en que se encuentren los datos. Si los datos se encuentran ordenados en una tabla estadística diremos que se encuentran “agrupados” y si los datos no están en una tabla hablaremos de datos “no agrupados”.

Según este criterio, haremos primero el estudio de las medidas estadísticas para datos no agrupados y luego para datos agrupados.

Medidas estadísticas en datos no agrupado

Medidas de tendencia central

Promedio o media
La medida de tendencia central más conocida y utilizada es la media aritmética o promedio aritmético. Se representa por la letra griega µ cuando se trata del promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del promedio de la muestra. Es importante destacar que µ es una cantidad fija mientras que el promedio de la muestra es variable puesto que diferentes muestras extraídas de la misma población tienden a tener diferentes medias. La media se expresa en la misma unidad que los datos originales: centímetros, horas, gramos, etc.

Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo será:


Estos cálculos se pueden simbolizar:


Donde Y1 es el valor de la variable en la primera observación, Y2 es el valor de la segunda observación y así sucesivamente. En general, con “n” observaciones, Yi representa el valor de la i-ésima observación. En este caso el promedio está dado por


De aquí se desprende la fórmula definitiva del promedio:


Desviaciones: Se define como la desviación de un dato a la diferencia entre el valor del dato y la media:


Ejemplo de desviaciones:


Una propiedad interesante de la media aritmética es que la suma de las desviaciones es cero.

Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor de la variable que ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es decir, el 50% de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50% tiene valores iguales o superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al promedio de los dos valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/2=10.

Moda
La moda de una distribución se define como el valor de la variable que más se repite. En un polígono de frecuencia la moda corresponde al valor de la variable que está bajo el punto más alto del gráfico. Una muestra puede tener más de una moda.

Medidas de dispersión

Las medidas de dispersión entregan información sobre la variación de la variable. Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos. Las medidas de dispersión más utilizadas son: Rango de variación, Varianza, Desviación estándar, Coeficiente de variación.

Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de la variable.


La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz cuadrada, la desviación estándar. La varianza se representa con el símbolo σ² (sigma cuadrado) para el universo o población y con el símbolo s2 (s cuadrado), cuando se trata de la muestra. La desviación estándar, que es la raíz cuadrada de la varianza, se representa por σ (sigma) cuando pertenece al universo o población y por “s”, cuando pertenece a la muestra. σ² y σ son parámetros, constantes para una población particular; s2 y s son estadígrafos, valores que cambian de muestra en muestra dentro de una misma población. La varianza se expresa en unidades de variable al cuadrado y la desviación estándar simplemente en unidades de variable.

Fórmulas
Donde µ es el promedio de la población.



Donde Ȳ es el promedio de la muestra.


Consideremos a modo de ejemplo una muestra de 4 observaciones

Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las medidas de dispersión:


s2 = 34 / 3 = 11,33 Varianza de la muestra

La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4.

Interpretación de la varianza (válida también para la desviación estándar): un alto valor de la varianza indica que los datos están alejados del promedio. Es difícil hacer una interpretación de la varianza teniendo un solo valor de ella. La situación es más clara si se comparan las varianzas de dos muestras, por ejemplo varianza de la muestra igual 18 y varianza de la muestra b igual 25. En este caso diremos que los datos de la muestra b tienen mayor dispersión que los datos de la muestra a. esto significa que en la muestra a los datos están más cerca del promedio y en cambio en la muestra b los datos están más alejados del promedio.

Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación estándar de la muestra expresada como porcentaje de la media muestral.


Es de particular utilidad para comparar la dispersión entre variables con distintas unidades de medida. Esto porque el coeficiente de variación, a diferencia de la desviación estándar, es independiente de la unidad de medida de la variable de estudio.

Medidas de tendencia central y de dispersión en datos agrupados

Se identifica como datos agrupados a los datos dispuestos en una distribución de frecuencia. En tal caso las fórmulas para el cálculo de promedio, mediana, modo, varianza y desviación estándar deben incluir una leve modificación. A continuación se entregan los detalles para cada una de las medidas.

Promedio en datos agrupados
La fórmula es la siguiente:


Donde ni representa cada una de las frecuencias correspondientes a los diferentes valores de Yi.

Consideremos como ejemplo una distribución de frecuencia de madres que asisten a un programa de lactancia materna, clasificadas según el número de partos. Por tratarse de una variable en escala discreta, las clases o categorías asumen sólo ciertos valores: 1, 2, 3, 4, 5.




Entonces las 42 madres han tenido, en promedio, 2,78 partos.

Si la variable de interés es de tipo continuo será necesario determinar, para cada intervalo, un valor medio que lo represente. Este valor se llama marca de clase (Yc) y se calcula dividiendo por 2 la suma de los límites reales del intervalo de clase. De ahí en adelante se procede del mismo modo que en el ejercicio anterior, reemplazando, en la formula de promedio, Yi por Yc.

Mediana en datos agrupados
Si la variable es de tipo discreto la mediana será el valor de la variable que corresponda a la frecuencia acumulada que supere inmediatamente a n/2. En los datos de la tabla 1 Me=3, ya que 42/2 es igual a 21 y la frecuencia acumulada que supera inmediatamente a 21 es 33, que corresponde a un valor de variable (Yi) igual a 3.

Si la variable es de tipo continuo es necesario, primero, identificar la frecuencia acumulada que supere en forma inmediata a n/2, y luego aplicar la siguiente fórmula:



Donde:


Moda en datos agrupados
Si la variable es de tipo discreto la moda o modo será al valor de la variable (Yi) que tenga la mayor frecuencia absoluta ( ). En los datos de la tabla 1 el valor de la moda es 3 ya que este valor de variable corresponde a la mayor frecuencia absoluta =16.

Más adelante se presenta un ejemplo integrado para promedio, mediana, varianza y desviación estándar en datos agrupados con intervalos.

Varianza en datos agrupados
Para el cálculo de varianza en datos agrupados se utiliza la fórmula


Con los datos del ejemplo y recordando que el promedio (Y) resultó ser 2,78 partos por madre,



Cuando los datos están agrupados en intervalos de clase, se trabaja con la marca de clase (Yc), de tal modo que la fórmula queda:


Donde Yc es el punto medio del intervalo y se llama marca de clase del intervalo

Yc= (Límite inferior del intervalo + limite superior del intervalo)/2.

Percentiles

Los percentiles son valores de la variable que dividen la distribución en 100 partes iguales. De este modo si el percentil 80 (P80) es igual a 35 años de edad, significa que el 80% de los casos tiene edad igual o inferior a 35 años.

Su procedimiento de cálculo es relativamente simple en datos agrupados sin intervalos.

Retomemos el ejemplo de la variable número de partos:


El percentil j (Pj) corresponde al valor de la variable (Yi ) cuya frecuencia acumulada supera inmediatamente al “j” % de los casos (jxn/100).

El percentil 80, en los datos de la tabla, será el valor de la variable cuyo Ni sea inmediatamente superior a 33,6 ((80x42) /100).

El primer Ni que supera a 33,6 es 39. Por lo tanto al percentil 80 le corresponde el valor 4. Se dice entonces que el percentil 80 es 4 partos (P80=4). Este resultado significa que un 80% de las madres estudiadas han tenido 4 partos o menos.

Si los datos están agrupados en una tabla con intervalos, el procedimiento es levemente más complejo ya que se hace necesaria la aplicación de una fórmula.


Se aplica a los datos del intervalo cuya frecuencia acumulada ( Ni ) sea inmediatamente superior al “j” % de los casos (jxn/100).

En la siguiente tabla se muestra la distribución de 40 familias según su ingreso mensual en miles de pesos. Nótese que para calcular el centro de clase se usaron los límites reales de cada intervalo.



1. El ingreso mensual promedio será:


2. La mediana será:


Esto significa que un 50% de las familias tiene ingreso mensual igual o inferior a $127.270.

3. El percentil 78 será:


Por lo tanto se puede decir que 78% de las familias tienen ingreso igual o inferior a $174.660.

4. Los percentiles 10 y 90 serán:



A base de los valores de los percentiles 10 y 90 se pueden hacer tres afirmaciones:

  • El 10% de las familias tiene ingreso igual o inferior a $90.000.
  • El 90% de las familias tiene ingreso igual o inferior a $210.000.
  • El 80% central, de las familias, tiene ingreso entre $90.000 y $210.000

5. - La varianza será:

CLASE5

AGRUPACION DE DATOS EN TABLAS DE FRECUENCIAS

https://www.youtube.com/watch?v=CuKr7GzohbI

Tablas de frecuencias con datos no agrupados

Usamos este tipo de tablas cuando tenemos variables cualitativas, o variables cuantitativas con pocos valores.

Esta tabla está compuesta por las siguientes columnas:

  • Valores de la variable: son los diferentes valores que toma la variable en el estudio.
  • Frecuencia absoluta: es la cantidad de veces que aparece el valor en el estudio. La sumatoria de las frecuencias absolutas es igual al número de datos.
  • Frecuencia acumulada: es el acumulado o suma de las frecuencias absolutas, indica cuantos datos se van contando hasta ese momento o cuántos datos se van reportando.
  • Frecuencia relativa: es la fracción o proporción de elementos que pertenecen a una clase o categoría. Se calcula dividiendo la frecuencia absoluta entre el número de datos del estudio.
  • Frecuencia relativa acumulada: es la proporción de datos respecto al total que se han reportado hasta ese momento. Es la suma de las frecuencias relativas, y se puede calcular también dividiendo la frecuencia acumulada entre el número de datos del estudio.
  • Frecuencia porcentual: es el porcentaje de elementos que pertenecen a una clase o categoría. Se puede calcular rápidamente multiplicando la frecuencia relativa por 100%.
  • Frecuencia porcentual acumulada: es el porcentaje de datos respecto al total que se han reportado hasta ese momento. Se puede calcular rápidamente multiplicando la frecuencia relativa acumulada por 100%.

Ejemplo 1:

Se le pidió a un grupo de personas que indiquen su color favorito, y se obtuvo los siguientes resultados:

negroazulamarillorojoazul
azulrojonegroamarillorojo
rojoamarilloamarilloazulrojo
negroazulrojonegroamarillo

Con los resultados obtenidos, elaborar una tabla de frecuencias.

Solución:

En la primera columna, colocamos los valores de nuestra variable, en la segunda la frecuencia absoluta, luego la frecuencia acumulada, seguida por la frecuencia relativa, y finalmente la frecuencia relativa acumulada. Por ser el primer problema, no haremos uso de las frecuencias porcentuales.

ColorFrecuencia absolutaFrecuencia acumuladaFrecuencia relativaFrecuencia relativa acumulada
Negro440,200,20
Azul590,250,45
Amarillo5140,250,70
Rojo6200,301
Total201

Ejemplo 2:

En una tienda de autos, se registra la cantidad de autos Toyota vendidos en cada día del mes de Setiembre.

0; 1; 2; 1; 2; 0; 3; 2; 4; 0; 4; 2; 1; 0; 3; 0; 0; 3; 4; 2; 0; 1; 1; 3; 0; 1; 2; 1; 2; 3

Con los datos obtenidos, elaborar una tabla de frecuencias.

Solución:

En la primera columna, colocamos los valores de nuestra variable, en la segunda la frecuencia absoluta, luego la frecuencia acumulada, seguida por la frecuencia relativa, y finalmente la frecuencia relativa acumulada. Ahora vamos a agregar la columna de frecuencia porcentual, y frecuencia porcentual acumulada.


Autos vendidosFrecuencia absolutaFrecuencia acumuladaFrecuencia relativaFrec. relativa acumuladaFrecuencia porcentualFrec. porcentual acumulada
0880,2670,26726,7%26,7%
17150,2330,50023,3%50,0%
27220,2330,73323,3%73,3%
35270,1670,90016,7%90,0%
43300,100110,0%100%
Total301100%

 

miércoles, 9 de diciembre de 2020

CLASE··3

TEMA: Medidas de dispersión

https://www.youtube.com/watch?v=BSxdG6XpCwc

Rango

Indica la dispersión entre los valores extremos de una variable. se calcula como la diferencia entre el mayor y el menor valor de la variable. Se denota como R.

Para datos ordenados se calcula como:

R = x(n) - x(1)

Donde: x(n): Es el mayor valor de la variable. x(n): Es el menor valor de la variable.

Desviación media

Es la media aritmética de los valores absolutos de las diferencias de cada dato respecto a la media.

DesvMedia.jpg

Donde:

xi:valores de la variable.

n: número total de datos

Desviación estándar

La desviación estándar mide el grado de disersión de los datos con respecto a la media, se denota como s para una muestra o como σ para la población. Se define como la raiz cuadrada de la varianza según la expresión:


Obsérvese que el denominador es n - 1, a diferencia de la desviación media donde se divide entre n; también existe la formula de desviación típica donde el denominador es n pero se prefiere n-1.

Mientras menor sea la desviación estándar, los datos son más homogéneos, es decir existe menor dispersión, el incremento de los valores de la desviación estándar indica ina mayor variabilidad de los datos.

Varianza

Es otro parámetro utilizado para medir la dispersión de los valores de una variable respecto a la media. Corresponde a la media aritmética de los cuadrados de las desviaciones respecto a la media. Su expresión matemática es:

Varianza.png

donde Xi es el dato i-ésimo y Xbarra.png es la media de los N datos.

Coeficiente de Variación

Permite determinar la razón existente entre la desviación estándar (s) y la media. Se denota como CV. El coeficiente de variación permite decidir con mayor claridad sobre la dispersión de los datos.


También puede ser expresado en por ciento.