MENU

统计学习基础

July 17, 2018 • Notes,Math

Stanford STATS 202期中复习笔记基础部分

基本概念

Supervised Learning

  • Input variables输入变量
  • Output variables输出变量

    • Quantitative, regression 定量输出 - 回归问题
    • Qualitative, classification 定性输出 - 分类问题
  • 表示为$Y = f(x) + \epsilon$, $\epsilon$表示随机误差。目标:通过训练数据学习$f$

    • Prediction:预测输出变量

    Goal: To minimize the prediction error 目标:最小化预测误差

    1. 对回归问题,通常用MSE (Mean Squared Error)

$$
MSE(\hat{f}) = E(y_0-\hat{f}(x_0))^2
$$

然而这个期望不能够计算,因为我们没有$(X, Y)$的真正联合概率分布。因此实际可以采用training MSE(通过$n$组训练样本$(x_i,y_i)$得到)

$$
MSE_{training}(\hat{f}) = \frac{1}{n}\sum_{i=1}^{n} (y_i-\hat{f}(x_i))^2
$$

The main challenge of statistical learning is that a low training MSE does not imply a low MSE. 因此,评价时采用Test MSE(通过$m$组未被用来训练的样本$(x_i',y_i')$得到)

$$
MSE_{test}(\hat{f}) = \frac{1}{m}\sum_{i=1}^{m} (y_i'-\hat{f}(x_i'))^2
$$

  • Flexibility - MSE Curve:

一般情形:体现了Flexibility和Overfitting的关系

稍微特殊一点的情况

$f$ is almost linear:


$\epsilon$ (noise) 较小:

  • The bias variance decomposition

对于一个测试数据$x_0$, $y_0 = f(x_ 0) + \epsilon_0$, $\hat{f}$从$n$对训练数据$(x_1, y_1)…(x_n, y_n )$得到.

Mean Squared Error at $x_0$可以被分解为

$$
MSE(x_0) = E(y_0-\hat{f}(x_0))^2 = Var(\hat{f}(x_0)) + [Bias(\hat{f}(x_0))]^2 + Var(\epsilon_0)
$$

其中$ Var(\hat{f}(x_0))$表示重新采样训练数据训练后对$x_0$预测的方差(刻画模型的稳定性),$ [Bias(\hat{f}(x_0))]^2 = [E(\hat{f}(x_0))-f(x_0)]^2$表示总体平均预测和$y_0$真实值偏差的平方(刻画模型的准确性),$Var(\epsilon_0)$是不可避免误差($MSE_{test}$理论最小值)。

Therefore, typically when we decrease the bias beyond some point, we increase the variance, and vice-versa.

  1. 对分类问题,通常用连续的概率刻画离散的取值

0-1 loss: $E(\textbf{1}(y_0\neq\hat{y_0}))$,用$\frac{1}{n}\sum_{i = 1}^{n}(\textbf{1}(y_i\neq\hat{y_i})$估计

    • Inference:分析特定输入-输出变量之间的关系
    • Methods方法

      • Parametric methods参数方法:

        • 假设$f$具有特定的形式,估计其中的未知参数
        • 通常更便于解释
      • Non-parametric methods非参数方法:

        • 不预先假设$f$的形式,但通常限制其“灵活”程度
        • 随着数据增加,模型持续改进

    Unsupervised Learning

    • Correlation analysis
    • Clustering

    Classification, Clustering

    Classification Problem

    • $(X,Y)$ 有联合概率分布。
    • 紫色:Bayes boundary(已知联合分布下最优的分类策略)

    K-nearest neighbors

    • 直接的想法:寻找相似点的平均表现
    • 相似:由距离度量
    • 预先指定K。K越大,边界越平滑

    Clustering

    Unsupervised

    K-means clustering

    聚类数K须给定。

    Motivation

    Maximize the similarity of samples within each cluster: 最小化类内总距离/类内样本数$\frac{1}{|C_k|} \sum\limits_{i,i^{\prime} \in C_k} \sum\limits_{j=1}^p (x_{ij} - x_{i^\prime j})^2$

    Implementation

    1. 每个样本任意赋1-K的类别id
    2. 重复迭代至收敛:

      • 找质心$x_{l,j} = \frac{1}{|C_l|}\sum\limits_{i \in C_l}x_{i,j}, j = 1...p$
      • 将每个点归到最近的质心所属的类

    Proof of minimization
    $$
    \begin{eqnarray}
    \frac{1}{|C_k|} \sum\limits_{i,i^{\prime} \in C_k} \sum\limits_{j=1}^p (x_{ij} - x_{i^\prime j})^2 &=&
    \frac{1}{|C_k|} \sum\limits_{i,i^{\prime} \in C_k} \sum\limits_{j=1}^p ((x_{ij} - \bar{x}_{kj}) - (x_{i^\prime j} - \bar{x}_{kj}))^2
    \\
    &=& \frac{1}{|C_k|} \sum\limits_{i,i^{\prime} \in C_k} \sum\limits_{j=1}^p ((x_{ij} - \bar{x}_{kj})^2 - 2 (x_{ij} - \bar{x}_{kj})(x_{i^\prime j} - \bar{x}_{kj}) + (x_{i^\prime j} - \bar{x}_{kj})^2)
    \\
    &=& \sum\limits_{i \in C_k} \sum\limits_{j=1}^p (x_{ij} - \bar{x}_{kj})^2 +
    \sum\limits_{i^{\prime} \in C_k} \sum\limits_{j=1}^p (x_{i^\prime j} - \bar{x}_{kj})^2 -
    \frac{2}{|C_k|} \sum\limits_{i,i^{\prime} \in C_k} \sum\limits_{j=1}^p (x_{ij} - \bar{x}_{kj})(x_{i^\prime j} - \bar{x}_{kj})
    \\
    &=& 2 \sum\limits_{i \in C_k} \sum\limits_{j=1}^p (x_{ij} - \bar{x}_{kj})^2
    \end{eqnarray}
    $$
    其中$\bar{x}_{k}$是类$k$的质心,右式通过迭代过程被最小化。迭代总是收敛到目标函数的局部最小值点(不同的初始化可能产生不同的局部最小值)。实际操作中进行多次不同的随机初始化,取目标函数最小的收敛结果。

    Hierarchical clustering

    • 每次合并最邻近的两个类作为一个新的类
    • 输出:树形图(纵轴表示某次合并发生时相应的距离)
    • 类的数量不定,可在不同位置截开
    • 层次聚类并不总适用(取决于具体问题中类的意义)

    “距离”的定义决定合并的方式

    • Complete linkage:两个类中样本的最远距离。适合较小的类成长,聚类结果较均衡。
    • Average linkage:两个类中样本pairwise距离的平均值。
    • Single linkage:两个类中样本的最近距离。强者恒强,聚类结果不均衡。
    • 聚类前可以先做标准化,因为方差大的变量对欧氏距离影响大

      • 欧氏距离是度量相似度的好方法吗?
      • 有时候比起magnititude,我们更关心correlation distance,可以用cosine similarity或类似标准衡量

    Revisit: 关于KL散度 模块度 Girvan–Newman聚类方法

    Linear Regression

    一元线性回归

    $$
    Y_i = \beta_0 + \beta_1X_1 + \epsilon_i, \epsilon_i \sim N(0,\sigma)
    $$

    最小化残差平方和residual sum of squares (RSS)

    对$\hat{\beta_0}$, $\hat{\beta_1}$可以分别计算标准差$SE$并得到95%置信区间

    $$
    \hat{\beta_0} \pm 2\cdot SE(\hat{\beta_0}),
    \hat{\beta_1} \pm 2\cdot SE(\hat{\beta_1})
    $$

    效果检验

    $$
    t = \frac{\hat{\beta_1}-0}{SE(\hat{\beta_1})} \sim t(n-2)
    $$

    • 一般$H_0$是null hypothesis ($\beta_1=0$)
    • 拒绝null hypothesis不意味着线性关系,也有可能是更复杂的非线性关系
    • 接受null hypothesis不意味着没有关系,也有可能是更复杂的非线性关系
    • A small p-value (typically ≤ 0.05) indicates strong evidence against the null hypothesis, so you reject the null hypothesis.
    • A large p-value (> 0.05) indicates weak evidence against the null hypothesis, so you fail to reject the null hypothesis.

    多元线性回归

    $$
    Y= \beta_0 + \beta_1X_1 +... + \beta_pX_p + \epsilon, \epsilon_i \sim N(0,\sigma)
    $$

    效果检验

    • 是否至少有一个变量有用?
    • 哪些变量是重要的?
    • 显著性分析

    $$
    H_0 : \beta_{p-q+1} = \beta_{p-q+2}
    $$

    Tags: Stats
    Archives QR Code
    QR Code for this page
    Tipping QR Code