Varianza y desviación típica en R
La desviación típica y la varianza son medidas de dispersión que cuantifican el grado de variabilidad de una variable. Junto con las medidas de tendencia central, las medidas estadísticas de dispersión se usan para describir las propiedades de una distribución. En este tutorial aprenderás a calcular la varianza ya la desviación típica en R con las funciones var y sd.
Varianza en R con la función var
La varianza, generalmente denotada por \(S^2_n\), o \(\sigma^2_n\) es la media aritmética de las desviaciones al cuadrado de los valores de la variable con respecto a su media. Esto es,
\(S^2_n = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2\),
siendo \(n\) el número de observaciones y \(\bar{x}\) la media de la variable.
Se usa el denominador n-1 para obtener un estimador insesgado de la varianza para observaciones i.i.d. (independientes e idénticamente distribuídas).
La varianza es siempre positiva y cuanto mayor sea su valor mayor será la dispersión de los datos.
Usando R, podemos utilizar la función var
para calcular la varianza de una variable. Considerando el siguiente vector de ejemplo es posible calcular su varianza con dicha función:
# Vector de muestra
x <- c(10, 25, 12, 18, 5, 16, 14, 20)
# Varianza
var(x) # 38.57143
Ten en cuenta que la función proporciona un argumento llamado na.rm
que puede establecerse como TRUE
para eliminar los valores faltantes.
Desviación típica en R con la función sd
La desviación típica o desviación estándar es la raíz cuadrada positiva de la varianza, esto es, \(S_n = \sqrt{S^2_n}\). La desviación estándar se usa más en Estadística que la varianza, ya que está expresada en las mismas unidades que la variable, mientras que la varianza está expresada en unidades cuadradas.
En R, la desviación típica de una variable se puede calcular haciendo uso de la función sd
, tal y como se muestra a continuación:
# Vector de muestra
x <- c(10, 25, 12, 18, 5, 16, 14, 20)
# Desviación típica
sd(x) # 6.21059
# Equivalente a:
sqrt(var(x)) # 6.21059
De manera similar, podemos calcular la varianza como el cuadrado de la desviación típica:
# Vector de muestra
x <- c(10, 25, 12, 18, 5, 16, 14, 20)
# Varianza
sd(x) ^ 2 # 38.57143
La función sd
también proporciona el argumento na.rm
, que puede establecerse como TRUE
si el vector de entrada contiene algún valor NA
. En otro caso, la salida de la función será también un NA
.