Variance - Jerry's Math Garden

> [!definition] > > Let $X$ be a [[Random Variable|random variable]]. Then its **variance** is > $ > \var{X} = \ev{((X - \mu)^2)} \quad \mu = \ev{(X)} > $ > [!definition] > > $ > \begin{align*} > \sigma^2 &= \frac{1}{N}\sum_{i = 1}^{n}(x_i - \mu)^2 \\ > s^2 &= \frac{1}{n - 1}\sum_{i = 1}^{n}(x_i - \bar{x})^2 \\ > \var{X} &= \ev((X - \mu)^2) = \sum_{j = 1}^{n}(x_j - \mu)^2p_j > \end{align*} > $ > > The variance of the [[Math/Probability and Statistics/Dataset|dataset]] of a [[Population|population]]/[[Sample|sample]] or [[Random Variable|random variable]] is a [[Statistic|statistic]] that measures its [[Math/Probability and Statistics/Distributions/Dispersion|dispersion]], denoted as $\sigma^2$/$s^2$. > > For the case of samples instead of populations, divide by the sample size minus one to demonstrate [[Uncertainty|uncertainty]]. > [!theorem] > > $ > \begin{align*} > \var X &= \ev(X^2) - (\ev(X))^2 \\ > \var {\alpha X} &= \alpha^2 \var{X} \quad \forall \alpha \in \real > \end{align*} > $ > > *Proof.* Expand $(X - \mu)^2 = X^2 - 2\mu X + \mu^2$, and apply properties of [[Expectation|expected value]]: > $ > \begin{align*} > \var X &= \ev(X^2) - \ev(2\mu X) + \ev(\mu^2) \\ > &= \ev(X^2) - 2\mu\ev(X) + \mu^2 \\ > &= \ev(X^2) - 2\mu^2 + \mu^2 \\ > &= \ev(X^2) - \mu^2\\ > \end{align*} > $ > > $ > \begin{align*} > \var{\alpha X} &= \ev((\alpha X - \ev(\alpha X))^2) \\ > &= \ev((\alpha X - \alpha\ev(X))^2) \\ > &= \ev(\alpha^2(X - \ev(X))^2) \\ > &= \alpha^2\ev((X - \ev(X))^2) \\ > &= \alpha^2\var{X} \\ > \end{align*} > $ > [!theorem] > > $ > \var{X + Y} = \var{X} + 2\cov{X, Y} + \var{Y} > $ > *Proof*. > $ > \begin{align*} > \var{X + Y} > &= \ev((X + Y - \mu_x - \mu_y)^2)\\ > &= \ev( > X^2 + XY - X\mu_x - X\mu_y \\ > &\quad + XY + Y^2 - Y\mu_x - Y\mu_y \\ > &\quad - \mu_xX - \mu_xY + \mu_x^2 + \mu_x\mu_y \\ > &\quad - \mu_yX - \mu_yY + \mu_y^2 + \mu_x\mu_y) \\ > &= \ev( > X^2 + 2XY - 2X\mu_x - 2X\mu_y + Y^2 \\ > &\quad- 2Y\mu_x - 2Y\mu_y + \mu_x^2 + 2\mu_x\mu_y + \mu_y^2) \\ > &= \ev( > X^2- 2X\mu_x + \mu_x^2\\ > &\quad + Y^2 - 2Y\mu_y + \mu_y^2 \\ > &\quad + 2XY - 2X\mu_y - 2Y\mu_x + 2\mu_x\mu_y) \\ > &= \ev( > (X - \mu_x)^2\\ > &\quad + (Y - \mu_y)^2 \\ > &\quad + 2(X - \mu_x)(Y - \mu_y)) \\ > &= \var{X} + 2\cov{X, Y} + \var{Y} > \end{align*} > $ > [!theorem] > > Let $X, Y$ be arbitrary random variables: > $ > \var{X} + \var{Y} = \frac{1}{2}\paren{\var{X + Y} + \var{X - Y}} > $ > *Proof*. > > Using the previous theorem and a property of [[Covariance|covariance]] below, > $ > \begin{align*} > \cov{X, \alpha Y_1 + \beta Y_2} &= \alpha \cov{X, Y_1} + \beta\cov{X, Y_2} \\ > \cov{X, \alpha Y} &= \alpha \cov{X, Y} \quad (\beta = 0) > \end{align*} > $ > Calculate the values of $\var{X + Y}$ and $\var{X - Y}$, > $ > \begin{align*} > \var{X + Y} &= \var{X} + 2\cov{X, Y} + \var{Y} \\ > \var{X - Y} &= \var{X} + 2\cov{X, -Y} + \var{-Y} \\ > &= \var{X} - 2\cov{X, Y} + \var{Y} > \end{align*} > $ > Then add them together. > $ > \begin{align*} > \var{X + Y} + \var{X - Y} > &= \var{X} + 2\cov{X, Y} + \var{Y} \\ > &\quad + \var{X} - 2\cov{X, Y} + \var{Y} \\ > &= 2\var{X} + 2\var{Y} \\ > \var{X} + \var{Y} &= \frac{1}{2}\paren{\var{X + Y} + \var{X - Y}} > \end{align*} > $ > [!theorem] Simplified Calculation (Statistics) > > $ > \begin{align*} > \sigma^2 &= \frac{1}{N}\sum_{i = 1}^{n}x_i^2 - \bar{x}^2 \\ > s^2 &= \frac{1}{n - 1}\sum_{i = 1}^{n}x_i^2 - \frac{1}{n(n - 1)}\left(\sum_{i = 1}^{n}x_i\right)^2 \\ > \end{align*} > $ > > Alternatively, the variance can be calculated as the [[Mean|average]] of the squares minus the square of the average. > > $ > \begin{align*} > \sigma^2 &= \frac{1}{N}\sum_{i = 1}^{n}n_ic_i^2 - \bar{x}^2 \\ > s^2 &= \frac{1}{n - 1}\sum_{i = 1}^{n}n_ic_i^2 - \frac{1}{n(n - 1)}\left(\sum_{i = 1}^{n}n_i c_i^2\right)^2 \\ > \end{align*} > $ > For data grouped under a [[Frequency|frequency]] table, the variance can be calculated through a weighted sum. > > ##### Proof > > $ > \begin{align*} > \sigma^2 &= \frac{1}{N}\sum_{i = 1}^{n}(x_i - \bar{x})^2 \\ > \sigma^2 &= \frac{1}{N}\sum_{i = 1}^{n}(x_i^2 - 2x_i \bar{x} + \bar{x}^2) \\ > \sigma^2 &= > \frac{1}{N}\sum_{i = 1}^{n}x_i^2 > - \frac{2\bar{x}}{N}\sum_{i = 1}^{n}x_i > + \frac{1}{N}\sum_{i = 1}^{n}\bar{x}^2 \\ > \sigma^2 &= > \frac{1}{N}\sum_{i = 1}^{n}x_i^2 > - 2\bar{x}^2 > + \bar{x}^2\\ > \sigma^2 &= > \frac{1}{N}\sum_{i = 1}^{n}x_i^2 > - \frac{2\bar{x}}{N}\sum_{i = 1}^{n}x_i > + \frac{1}{N}\sum_{i = 1}^{n}\bar{x}^2 \\ > \sigma^2 &= \bar{x^2} - \bar{x}^2\\ > \end{align*} > $ > $ > \begin{align*} > s^2 &= \frac{1}{n - 1}\sum_{i = 1}^{n}(x_i - \bar{x})^2 \\ > &= \frac{1}{n- 1}\sum_{i = 1}^{n}(x_i^2 - 2x_i \bar{x} + \bar{x}^2) \\ > &= > \frac{1}{n - 1}\sum_{i = 1}^{n}x_i^2 > - \frac{2\bar{x}}{n - 1}\sum_{i = 1}^{n}x_i > + \frac{1}{n - 1}\sum_{i = 1}^{n}\bar{x}^2 \\ > &= > \frac{1}{n - 1}\sum_{i = 1}^{n}x_i^2 > - \frac{2}{n(n - 1)}\left(\sum_{i = 1}^{n}x_i\right)^2 > + \frac{1}{n(n - 1)}\sum_{i = 1}^{n}x_i\\ > &= > \frac{1}{n - 1}\sum_{i = 1}^{n}x_i^2 > - \frac{1}{n(n - 1)}\left(\sum_{i = 1}^{n}x_i\right)^2\\ > \end{align*} > $ >