数学

范数(Norm)

是数学中用来衡量向量“大小”或“长度”的一个函数。本质上是一种数学映射关系,作为一个函数,输入向量,输出非负实数,表示这个向量的大小或长度。

指在数据集中,一组彼此相似度较高且相互之间距离较近的数据点集合。换句话说,簇是一类在某种度量标准下被划分到一起的样本点的集合,它们内部的相似性最大,而与其他簇之间的差异最大。

基数(Cardinality)

指一个集合中元素的数量,$C_k$ 表示第 $k$ 个簇的样本集合,$|C_k|$ 表示集合 $C_k$ 的基数(元素个数)。

平凡解

指一个方程显而易见的解,没有讨论的必要,但是为了结果的完整性仍需要考虑。比如x(x^3+7*x^2)=0,显而易见存在x=0解,这就是平凡解


线性代数

行列式

标量函数,记作 $\det(A)$ 或 $|A|$,用于判断 $n \times n$ 方阵 $A$ 是否可逆,当且仅当$\det(A) \neq 0$时矩阵可逆。

单位矩阵(Identity Matrix)

主对角线为 1,其余为 0 的方阵,记作 $I_n$,下标 $n$ 代表矩阵阶数。

协方差矩阵(Covariance Matrix)

协方差矩阵用来衡量各个特征之间的线性相关性。它是一个 $m \times m$(特征数量)的方阵,矩阵中的每个元素表示第 $i$ 个特征和第 $j$ 个特征之间的协方差。

协方差公式(样本协方差):
$$
\text{cov}(X_i, X_j) = \frac{1}{n - 1} \sum_{k=1}^{n} (X_{ik} - \bar{X}i)(X{jk} - \bar{X}_j)
$$

其中:

  • $X_{ik}$ 表示第 $k$ 个样本在第 $i$ 个特征上的取值。
  • $\bar{X}_i$ 表示第 $i$ 个特征的均值。

性质:

  • 如果 $\text{cov}(X_i, X_j) > 0$,说明两个特征正相关。
  • 如果 $\text{cov}(X_i, X_j) < 0$,说明两个特征负相关。
  • 如果 $\text{cov}(X_i, X_j) \approx 0$,说明两个特征几乎没有线性相关性,但可能存在非线性关系。

为什么分母是 $n - 1$:(选看,公式能推但有点费劲)

  • 当我们用样本数据来估计总体的协方差时,使用 $n - 1$ 作为分母可以得到无偏估计,让结果更接近真实总体。
  • 如果使用的是整个总体数据,分母可以用 $n$。

“无偏”意味着样本方差的期望值应等于总体方差,即样本方差在长期来看既不会系统性偏大也不会偏小。

样本方差通常用分母 $n - 1$ 而非 $n$,这是因为样本均值是基于同一组样本计算的,与样本数据紧密相关。用样本均值代替总体均值计算偏差时,样本数据的波动被低估,导致样本方差的直接计算值总体偏小。

统计学关注的是大量独立重复抽样的长期性质。假设从总体反复抽取大量样本,计算每个样本的方差,再取这些方差的平均值,发现如果分母用 $n$,则平均样本方差会偏小于真实总体方差。

这是因为样本数据相对于样本均值的波动“向内收缩”,样本均值是样本内数据的固定参考点,而总体均值是全局固定,导致样本方差计算时缺少一个自由度。

采用分母 $n - 1$,即自由度校正,能够消除这种系统性偏差,使样本方差成为总体方差的无偏估计,从而保证样本方差的长期平均值准确反映总体波动。

数学推导

假设我们有独立同分布的样本:
$$
X_1, X_2, \ldots, X_n
$$
总体的真实均值是 $\mu$,但是我们不知道它。样本均值是:
$$
\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i
$$

样本平方差和:
$$
S = \sum_{i=1}^n (X_i - \bar{X})^2
$$

为了和总体均值 $\mu$ 联系起来,我们在括号里**加减 $\mu$**,这样写:
$$
X_i - \bar{X} = (X_i - \mu) - (\bar{X} - \mu)
$$

把它带回去,展开平方和:
$$
S = \sum_{i=1}^n \big[(X_i - \mu) - (\bar{X} - \mu)\big]^2
$$

展开平方项得:
$$
S = \sum_{i=1}^n (X_i - \mu)^2 - 2(\bar{X} - \mu) \sum_{i=1}^n (X_i - \mu) + \sum_{i=1}^n (\bar{X} - \mu)^2
$$

因为 $\bar{X} - \mu$ 是一个常数,不随 $i$ 变化,且有 $n$ 个项,所以:
$$
S = \sum_{i=1}^n (X_i - \mu)^2 - 2(\bar{X} - \mu) \sum_{i=1}^n (X_i - \mu) + n(\bar{X} - \mu)^2
$$

接着,注意到:
$$
\sum_{i=1}^n (X_i - \mu) = n(\bar{X} - \mu)
$$

带入上式,得到:
$$
S = \sum_{i=1}^n (X_i - \mu)^2 - 2n(\bar{X} - \mu)^2 + n(\bar{X} - \mu)^2 = \sum_{i=1}^n (X_i - \mu)^2 - n(\bar{X} - \mu)^2
$$

对上式两边取期望:
$$
\mathbb{E}[S] = \mathbb{E}\left[\sum_{i=1}^n (X_i - \mu)^2\right] - \mathbb{E}\left[n(\bar{X} - \mu)^2\right]
$$

由于每个 $X_i$ 独立同分布且方差是 $\sigma^2$,所以:
$$
\mathbb{E}[(X_i - \mu)^2] = \sigma^2
\Rightarrow \mathbb{E}\left[\sum_{i=1}^n (X_i - \mu)^2\right] = n \sigma^2
$$

样本均值的方差是:
$$
\operatorname{Var}(\bar{X}) = \frac{\sigma^2}{n} \Rightarrow \mathbb{E}[(\bar{X} - \mu)^2] = \frac{\sigma^2}{n}
$$

所以:
$$
\mathbb{E}[n(\bar{X} - \mu)^2] = n \times \frac{\sigma^2}{n} = \sigma^2
$$

因此,
$$
\mathbb{E}[S] = n \sigma^2 - \sigma^2 = (n-1) \sigma^2
$$

这就是说,用样本均值计算的平方差和的期望是 $(n-1)\sigma^2$,而不是 $n \sigma^2$。

这就是为什么样本方差的分母不能用 $n$,而是用 $n-1$ — 这样才能保证样本方差的期望等于总体方差,使其成为无偏估计。

换句话说:

  • 样本均值是基于样本数据计算的,会导致方差计算的波动被低估。
  • 用 $n-1$ 修正分母,补偿这个系统性偏差,得到更准确的方差估计。

也就是对所有可能的值 $x$ 按概率密度加权求积分,得到平均值。

正半定矩阵(Positive Semidefinite Matrix)

“正半定”是“正半定矩阵”的简称,满足下面条件

  • $A$ 是对称矩阵(即 $A = A^T$,对称方阵),
  • 对任意非零向量 $x$,都有 $x^T A x \geq 0$。

这表示矩阵 $A$ 作用于任意向量时,不会让“二次型”变成负值,只可能是零或者正数。

  • 正定矩阵:对所有非零向量 $x$,都有

    $$
    x^T A x > 0
    $$

  • 正半定矩阵:对所有向量 $x$,都有

    $$
    x^T A x \geq 0
    $$

(允许等于零)


概率论

基本概率论

大数定律(Law of Large Numbers, LLN)

随机变量的平均值在大量重复试验后趋近于期望值

数学表述(弱大数定律)

$$
\lim_{n \to \infty} \frac{1}{n} \sum_{i=1}^n X_i = \mu \quad \text{(几乎必然收敛)}
$$

这意味着,当样本数量 $n$ 趋于无穷大时,样本平均值几乎必然会收敛到真实的期望值 $\mu$。也就是理论均值。

抽样(sampling)

从概率分布中抽取样本的过程

数学期望(Expectation,$E$)

数学期望 $E[X]$ 表示对随机变量 $X$ 的期望值,表示随机变量在长期重复试验中的平均结果。

  • 离散型:
    离散型就是同类样本对应乘以发生的理论概率。
    $$
    E[X] = \sum_i x_i p_i
    $$
    数学性质:
    $$
    \mathbb{E}[AX + b] = A , \mathbb{E}[X] + b
    $$

  • 连续型:
    $$
    E[X] = \int_{-\infty}^{+\infty} x f(x) , dx
    $$

均值(Sample Mean)

实际观测样本的均值,是具体样本里计算出来的平均数,会随着样本改变有所波动。

分布(distribution)

事件的概率分配

多项分布(multinomial distribution)

将概率分配给一些离散选择的分布

Var(Variance,方差)

数据偏离期望的程度
$$
\text{Var}(X) = E\left[(X - \mu)^2\right]
$$

样本空间(sample space)/ 结果空间(outcome space)

表示为一个集合 $S$,包含所有可能结果

事件(event)

一组给定样本空间的随机结果,记作 $A \subseteq S$

概率(probability)

将集合映射到真实值的函数,满足以下属性

  • 对于任意事件,其概率从不会是负数,$P(A) \geq 0$
  • 整个样本空间的概率为1,$P(S) = 1$
  • 对于互斥(mutually exclusive)事件,序列中任意一个事件发生的概率等于它们各自发生的概率之和,若 $A_1, A_2, \dots$ 互不相交,则
    $$
    P\left( \bigcup_{i=1}^{\infty} A_i \right) = \sum_{i=1}^{\infty} P(A_i)
    $$

联合概率(joint probability)

两个事件同时发生的概率:$P(A \cap B)$

条件概率(conditional probability)

条件概率表示在事件 (B) 已经发生的前提下,事件 (A) 发生的概率:

$$
P(A \mid B) = \frac{P(A \cap B)}{P(B)} \quad \text{(前提是 } P(B) > 0 \text{)}
$$

其中:

  • (P(A \cap B)) 表示事件 (A) 与事件 (B) 同时发生的概率。
  • (P(B)) 是事件 (B) 的概率。

贝叶斯定理(Bayes’ theorem)

利用条件概率进行反向推断:
$$
P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)} \quad \text{(前提是 } P(B) > 0 \text{)}
$$

边际概率(marginal probability) / 边际分布(marginal distribution)

事件概率求和将所有选择的联合概率聚合在一起

  • 离散型:

    $$
    P(X = x) = \sum_y P(X = x, Y = y)
    $$

  • 连续型:

    $$
    f_X(x) = \int_{-\infty}^{+\infty} f_{X,Y}(x, y) , dy
    $$