多元正太

This commit is contained in:
estomm
2019-12-27 23:57:53 +08:00
parent 46b8a070e3
commit b97b5d0d96
5 changed files with 480 additions and 6 deletions

View File

@@ -1,7 +1,7 @@
# 方差分析
## 单因素试验方差分析
## 1 单因素试验方差分析
> 第三章假设检验,主要用来检验两个总体的均值和方差的关系。这里的方差分析,主要用来检验多个不同的因素的均值和方差的关系。
@@ -90,7 +90,7 @@ $$
假设H_0成立时\frac{S_A}{\sigma^2}\sim\chi^2(p-1)
$$
### 定理F检验
### 定理3F检验
* 检验统计量
$$
F=\frac{S_A/(p-1)}{S_e/(n-p)}\sim F(p-1,n-p)
@@ -101,7 +101,176 @@ W=\{F:F\geq F_{1-\alpha}((p-1),n-p)\}
$$
> 重点5.1.4表
## 双因素试验方差分析
## 2 双因素试验方差分析——无重复实验的方差分析
### 模型构建1
* 问题重述
* 因素A有p个不同的水平$A_1\cdots A_p$
* 因素B有q个不同的水平$B_1\cdots B_p$
* 共有pq=n个实验结果。$X_{ij}$服从同方差的正太分布$N(\mu_{ij},\sigma^2)$,参数未知。
* 检验n个样本的均值$\mu_{ij}$是否具有显著性差异
* 统计模型
$$
x_{ij}=\mu_{ij}+\varepsilon_{ij}
$$
其中$\mu_{ij}$描述了因素水平的影响。$\varepsilon$描述了随机误差的影响$\varepsilon_{ij}\sim N(0,\sigma^2)$
* 模型假设
$$
H_01:\mu_{1\cdot}=\cdots=\mu_{p\cdot},H_11:\mu不全相等\\
H_02:\mu_{\cdot1}=\cdots=\mu_{\cdot q},H_12:\mu不全相等\\
$$
* 模型方差分析
$$
总离差平方和S_T=\sum_{i=1}^p\sum_{j=1}^{q}(x_{ij}-\overline{x})^2\\
总均值\overline{x}=\frac{1}{n}\sum_{i=1}^p\sum_{j=1}^{q}x_{ij}\\
组内离差平方和S_e=\sum_{i=1}^p\sum_{j=1}^{q}(x_{ij}-\overline{x}_{i\cdot}-\overline{x}_{\cdot j}+\overline{x})^2\\
组内均值\overline{x}_{i\cdot}=\frac{1}{q}\sum_{j=1}^{q}x_{ij}\\
组内均值\overline{x}_{\cdot j}=\frac{1}{p}\sum_{j=1}^{q}x_{ij}\\
组间离差平方和S_A=\sum_{i=1}^p\sum_{j=1}^{q}(\overline{x}_{i\cdot}-\overline{x})^2=\sum_{i=1}^pq(\overline{x}_{i\cdot}-\overline{x})^2\\
组间离差平方和S_B=\sum_{i=1}^p\sum_{j=1}^{q}(\overline{x}_{i\cdot}-\overline{x})^2=\sum_{j=1}^qp(\overline{x}_{\cdot j}-\overline{x})^2\\
离差平方和关系S_T=S_e+S_A+S_B
$$
其中$S_A,S_e$分别描述了,由因素不同水平引起的方差与由随机变量引起的方差。可以使用$\frac{S_A}{S_e}$作为检验统计量,表示组间因素水平对总体方差变化大小的贡献值,当其过大时,可以拒绝原假设,表示有影响。但是其分布是未知的。
### 模型构建2
* 统计模型2
$$
\mu=\frac{1}{pq}\sum_{i=1}^p\sum_{j=1}^q\mu_{ij}\\
\mu_{i\cdot}=\frac{1}{q}\sum_{j=1}^q\mu_{ij}\\
\mu_{\cdot j}=\frac{1}{p}\sum_{i=1}^p\mu_{ij}\\
\alpha_i=\mu_{i\cdot}-\mu\\
\beta_j=\mu_{\cdot j}-\mu\\
x_{ij}=\mu+\alpha_i+\beta_j+\varepsilon_{ij}
$$
将因素水平对总体方差的影响进一步分离分成由因素A引起的均值变化由因素B引起的均值变化由其他因素带来的均值。与统计模型1的思想完全一致但是能够简化计算过程。
* 模型假设
$$
H_01:\alpha_1=\cdots=\alpha_p=0\\
H_02:\beta_1=\cdots=\beta_q=0
$$
* 模型2方差分析
$$
\overline{\varepsilon}_{i\cdot}=\frac{1}{q}\sum_{j=1}^{q}\varepsilon_{ij}\\
\overline{\varepsilon}_{\cdot j}=\frac{1}{p}\sum_{j=1}^{p}\varepsilon_{ij}\\
\overline{\varepsilon}=\frac{1}{n}\sum_{i=1}^p\sum_{j=1}^{q}\varepsilon_{ij}\\
S_A=\sum_{i=1}^pq(\alpha_i+\overline{\varepsilon}_{i\cdot}-\overline{\varepsilon})^2\\
S_B=\sum_{j=1}^qp(\beta_j+\overline{\varepsilon}_{\cdot j}-\overline{\varepsilon})^2\\
S_e=\sum_{i=1}^p\sum_{j-1}^{n_i}(\varepsilon_{ij}-\overline{\varepsilon}_{i\cdot}-\overline{\varepsilon}_{\cdot j}+\overline{\varepsilon})^2
$$
通过模型2可以知道$S_e$依赖样本的随机误差,$S_A$依赖随机误差与因素的水平效应。
### 定理1模型均值
$$
E(S_e)=(p-1)(q-1)\sigma^2\\
E(S_A)=(p-1)\sigma^2+\sum_{i=1}^pq\alpha_i^2\\
E(S_B)=(q-1)\sigma^2+\sum_{j=1}^qp\beta_j^2\\
$$
### 定理2模型分布
$$
\frac{S_e}{\sigma^2}\sim\chi^2((p-1)(q-1)),S_e,S_A相互独立。\\
假设H_01成立时\frac{S_A}{\sigma^2}\sim\chi^2(p-1)\\
假设H_02成立时\frac{S_B}{\sigma^2}\sim\chi^2(q-1)
$$
### 定理3F检验
* 检验统计量
$$
F_A=\frac{\overline{S}_A}{S_e}\sim F(p-1,(p-1)(q-1))\\
F_B=\frac{\overline{S}_B}{S_e}\sim F(q-1,(p-1)(q-1))\\
$$
* 拒绝域
$$
W_A=\{F_A:F_A\geq F_{1-\alpha}((p-1),(p-q)(q-1))\}\\
W_B=\{F_B:F_B\geq F_{1-\alpha}((q-1),(p-1)(q-1))\}
$$
## 3 双因素实验方差分析——等重复试验的方差分析
> 在上述实验的每种组合下重复试验能够对A与B的交互作用进行检验。
### 模型构建
* 统计模型
$$
\mu=\frac{1}{pq}\sum_{i=1}^p\sum_{j=1}^q\mu_{ij}\\
\mu_{i\cdot}=\frac{1}{q}\sum_{j=1}^q\mu_{ij}\\
\mu_{\cdot j}=\frac{1}{p}\sum_{i=1}^p\mu_{ij}\\
\alpha_i=\mu_{i\cdot}-\mu\\
\beta_j=\mu_{\cdot j}-\mu\\
\delta_{ij}=(\mu_{ij}-\mu)-\alpha_i-\beta_j\\
\sum_{i=1}^p\alpha_i=0,\sum_{j=1}^q=0,\sum_{i=1}^p\delta_{ij}=0,\sum_{j=1}^q\delta_{ij}=0\\
最终模型x_{ij}=\mu+\alpha_i+\beta_j+\varepsilon_{ij}
$$
将因素水平对总体方差的影响进一步分离分成由因素A引起的均值变化由因素B引起的均值变化由AB交互作用引起的变化由其他因素带来的均值。
* 模型假设
$$
H_{01}:\alpha_1=\cdots=\alpha_p=0\\
H_{02}:\beta_1=\cdots=\beta_q=0\\
H_{03}:\delta_{ij}=0
$$
* 方差分析1
> 这是通过统计量$\overline{x}$构建的离差分析
$$
\overline{x}=\frac{1}{pqr}\sum_{j=1}^q\sum_{k=1}^rx_{ijk}\\
S_T=\sum_{i=1}^p\sum_{j=1}^q\sum_{k=1}^r(x_{ijk}-\overline{x})^2\\
组内离差平方和S_e=\sum_{j=1}^q\sum_{k=1}^r(x_{ijk}-\overline{x}_{ij\cdot})^2\\
A组间离差平方和S_A=\sum_{j=1}^q\sum_{k=1}^r(x_{i\cdot\cdot}-\overline{x})^2=qr\sum_{i=1}^p{\overline{x}_{i\cdot\cdot}-\overline{x}}\\
B组间离差平方和S_B=\sum_{j=1}^q\sum_{k=1}^r(x_{\cdot j\cdot}-\overline{x})^2=pr\sum_{j=1}^q{\overline{x}_{\cdot j\cdot}-\overline{x}}\\
A\times B离差平方和S_{A\times B}=r\sum_{i=1}^p\sum_{j=1}^q(\overline{x}_{ij\cdot}-\overline{x}_{i\cdot\cdot}-\overline{\cdot j\cdot}+\overline{x})^2
$$
* 方差分析2
> 这个是通过统计量$\varepsilon$构建的离差平方和
$$
S_A=\sum_{i=1}^pqr(\alpha_i+\overline{\varepsilon}_{i\cdot\cdot}-\overline{\varepsilon})^2\\
S_B=\sum_{j=1}^qpr(\beta_j+\overline{\varepsilon}_{\cdot j\cdot}-\overline{\varepsilon})^2\\
S_{A\times B}=r\sum_{i=1}^p\sum_{j=1}^q(\delta_{ij}+\overline{\varepsilon}_{ij\cdot}-\overline{\varepsilon}_{i\cdot\cdot}-\overline{\varepsilon}_{\cdot j\cdot}+\overline{\varepsilon})^2\\
S_e=\sum_{i=1}^p\sum_{j-1}^{n_i}(\varepsilon_{ij}-\overline{\varepsilon}_{i\cdot}-\overline{\varepsilon}_{\cdot j}+\overline{\varepsilon})^2
$$
### 定理1模型均值
$$
E(S_e)=pq(r-1)\sigma^2\\
E(S_A)=(p-1)\sigma^2+\sum_{i=1}^pqr\alpha_i^2\\
E(S_B)=(q-1)\sigma^2+\sum_{j=1}^qpr\beta_j^2\\
E(S_{A\times B})=(p-1)(q-1)\sigma^2+r\sum_{i=1}^p\sum_{j=1}^q\delta_{ij}^2
$$
### 定理2模型分布
$$
\frac{S_e}{\sigma^2}\sim\chi^2(pq(r-1)),S_e,S_A相互独立。\\
假设H_{01}成立时,\frac{S_A}{\sigma^2}\sim\chi^2(p-1)\\
假设H_{02}成立时,\frac{S_B}{\sigma^2}\sim\chi^2(q-1)\\
假设H_{03}成立时,\frac{S_{A\times B}}{\sigma^2}\sim\chi^2((p-1)(q-1))
$$
### 定理3F检验
* 检验统计量
$$
F_A=\frac{\overline{S}_A}{S_e}\sim F(p-1,pq(r-1))\\
F_B=\frac{\overline{S}_B}{S_e}\sim F(q-1,pq(r-1))\\
F_{A\times B}=\frac{\overline{S}_{A\times B}}{\overline{S}_e}\sim F((p-1)(q-r),pq(r-1))
$$
* 拒绝域
$$
W_A=\{F_A:F_A\geq F_{1-\alpha}((p-1),pq(r-1))\}\\
W_B=\{F_B:F_B\geq F_{1-\alpha}((q-1),pq(r-1))\}\\
W_{A\times B}=\{F_{A\times B}:F_{A\times B}\geq F_{1-\alpha}((p-1)(q-1),pq(r-1))\}
$$
重点(考)

View File

@@ -1,6 +1,72 @@
# 正交试验设计
多个因素之间存在交互作用。
## 1 无交互作用的正交试验极差分析
### 正交表
$$
L_9(3^4)
$$
* 9次实验9行
* 3个水平3个可取值。
* 4个因素4列
### 正交表性质
* 每个因素的每个水平都出现过,且不同水平出现的次数相同
* 任意两列中,所有可能的有序对数出现的次数相同。
### 正交表极差分析
* $T_{2j}$表示某个因素第2个水平求和的值
* $R_j$表示极差
* 主次影响
* 最优方案
## 2 有交互作用的正交试验极差分析
### 正交表的极差分析
* $A \times B$表示AB交互影响的列通过交互作用表决定其位置
* $T_{2j}$表示某个因素第2个水平求和的值
* $R_j$表示极差
* 主次影响
* 最优方案。选取最优方案时,确定数值越小越好还是越大越好。交互作用单独列表,写出每种搭配,选取最后搭配。
## 3 无交互作用的正交试验方差分析
### 正交表
$$
L_n(t^m)\\
n-1=m(t-1)
$$
* n表示实验的次数
* t表示因素的水平数
* m表示因素的个数包括空列
### 方差分析
$$
S_T = \sum_{i=1}^n(y_i-\overline{y})^2=\sum_{i=1}^n-\frac{T^2}{n}\\
\overline{y}=\frac{1}{n}T,T=\sum_{i=1}^ny_i\\
S_j=\sum_{i=1}^tr(\frac{T_{ij}}{r}-\overline{y})^2=\frac{t}{n}\sum_{i=1}^tT_{ij}-\frac{1}{n}T^2\\
2水平正交实验S_j=\frac{1}{n}R_j^2
$$
### 定理1方差定理
1. $S_T=\sum_{j=1}^mS_j$
2. $S_T自由度f_T=n-1,S_j自由度f_j=t-1,f_T= \sum_{j=1}^m f_j$
### 例题分析
* 给出命题:包括因素与水平
* 设计正交表:添加空列,用来承接多余的自由度。
* 极差分析得到T与R
* 方差分析:得到$S_T,S_j$
* 方差分析表达式模型给出假设F检验拒绝域
### 定理2方差分析
1. $S_j相互独立,\frac{S_e}{\sigma^2}=\frac{S_3+S_7}{\sigma^2}\sim \chi^2(f_3+f_7)$
2. $当H_A成立时\frac{S_A}{\sigma^2}\sim\chi^2(f_A)\cdots$
方差分析(最后)
正交实验(例题)
## 4 有交互作用的正交试验方差分析
> 与上一部分完全一致。

View File

@@ -0,0 +1,112 @@
## 1 多元正太分布的定义
### 定义1密度函数
* 条件
$$
\mu是p维向量,\\
\Sigma是p\times p维协方差矩阵,\\
x\sim N_p(\mu,\Sigma)
$$
* 结论
$$
p(x)=(2\pi)^{-\frac{1}{2}}|\Sigma|^{-\frac{1}{2}}exp\{-\frac{1}{2}(x-\mu)'\Sigma^{-1}(x-\mu)\}
$$
### 定义2特征函数
* 结论
$$
\varphi(t)=E(e^{it'x})=exp\{it'\mu-\frac{1}{2}t'\Sigma t\}
$$
### 定义3
* 条件
$$
对任何非零向量a\in R^p\\
与向量x的线性组合a'x服从一元正太分布N(a'\mu,a'\Sigma a)\\
$$
* 结论
$$
x服从p员正太分布N_p(\mu,\Sigma)
$$
## 2 多元正太分布的性质
### 性质1均值方差
* 条件
$$
x\sim N_p(\mu,\Sigma)
$$
* 结论
$$
E(x)=\mu,Var(x)=\Sigma
$$
### 性质2线性变换
* 条件
$$
y=Ax+b,\\A_{m\times p}是任意非零常数矩阵,b_{m\times 1}是任意常数向量
$$
* 结论
$$
y\sim N_m(A\mu+b,A\Sigma A')
$$
### 性质3分块正太
* 条件
$$
x\sim N_p(\mu,\Sigma)\\
x=\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix},
\mu=\begin{bmatrix}
\mu_1\\ \mu_2
\end{bmatrix},
\Sigma=\begin{bmatrix}
\Sigma_{11} &\Sigma_{12}\\
\Sigma_{21} &\Sigma_{22}\\
\end{bmatrix}
$$
* 结论
$$
能够分块的充要条件是\Sigma_{12}=0。也就是说协方差矩阵等于零两者独立。
$$
### 性质4协方差矩阵的秩
* 条件
$$
x\sim N_p(\mu,\Sigma)\\
rank(\Sigma)=r
$$
* 结论
$$
充要条件存在列满秩矩阵B(p\times r)使得x=By+\mu,\\
BB'=\Sigma,y\sim N_r(0,I_r)\\
$$
> 能够由单位矩阵线性变换得到x
### 性质5线性组合
* 条件
$$
x_1,\cdots,x_k相互独立\\
x_i\sim N_p(\mu_i,\Sigma_i)\\
m\times p阶非零常数矩阵A_1,\cdots,A_k
$$
* 结论
$$
\sum_{i=1}^kA_ix_i\sim N_m(\sum_{i=1}^kA_i\mu_i,\sum_{i=1}^kA_i\Sigma_iA_i')
$$
### 性质6$\chi^2变换$
* 条件
$$
x\sim N_p(\mu,\Sigma),\Simga>0
$$
* 结论
$$
(x-\mu)'\Sigma^{-1}(x-\mu)\sim\chi^2(p)
$$

View File

@@ -0,0 +1,45 @@
# 多元正太分布的参数估计
## 多元正态分布
### 定义:密度函数
$$
X_{n\times p}=(x_1,\cdots,x_n)'\\
p(X;\mu,\Sigma)= \prod_{i=1}^np(x_i;\mu,\Sigma)
$$
### 引理:函数极值
$$
当A=nI_m时\\
函数f(A)=|A|^{\frac{n}{2}}exp\{-\frac{1}{2}tr(A)\}取得最大值\\
f(A)=n^{\frac{mn}{2}}e^{-\frac{mn}{2}}
$$
### 定理1参数估计
$$
\hat{\mu}=\overline{x}=\frac{1}{n}\sum_{i=1}^nx_i是\mu的极大似然估计\\
\hat{\Sigma}_n=\frac{1}{n}S=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(x_i-\overline{x})'是\Sigma的极大似然估计。
$$
### 性质1估计量评优
$$
\hat{\mu}=\overline{x}是一致最小方差无偏无极\\
\hat{\Sigma}_n=\frac{1}{n-1}S是一致最小方差无偏估计\\
\hat{\Sigma}_n=\frac{1}{n}S是渐进无偏估计
$$
### 性质2均值分布
$$
\overline{x}\sim N_p(\mu,\frac{1}{n}\Sigma),\overline{x}与S相互独立。
$$
### 性质3离差分布
$$
S\sim W_p(n-1,\Sigma)
$$
> $W_p是多元高维的\chi^2分布$

View File

@@ -0,0 +1,82 @@
# 多元正太总体的假设检验
## 1 协方差矩阵已知时均值向量的检验
### 似然比检验
* 假设
$$
H_0:\mu=\mu_0,H_1:\mu\not ={\mu_0}
$$
* 似然比
$$
p(X;\mu)=(2\pi)^{-\frac{n}{2}}exp\{-\frac{1}{2}tr\{\Sigma^{-1}[S+n(\overline{x}-\mu)(\overline{x}-\mu)']\}\}\\
\lambda(x)=\frac{sup_{\mu\in\Theta}\{p(X;\mu)\}}{sup_{\mu\in\Theta_0}\{p(X;\mu)\}}=exp\{\frac{n}{2}(\overline{x}-\mu_0)'\Sigma^{-1}(\overline{x}-\mu_0)\}\\
n(\overline{x}-\mu_0)'\Sigma^{-1}(\overline{x}-\mu_0)\sim \chi^2(p) 性质6作为检验统计量
$$
* 拒绝域
$$
W=\{(x_1,\cdots,x_n):\chi^2\geq\chi^2_{1-\alpha}(p)\}
$$
## 2 协方差矩阵未知时均指向量的检验
### 似然比检验
* 假设
$$
H_0:\mu=\mu_0,H_1:\mu\not ={\mu_0}
$$
* 似然比
$$
p(X;\mu,\Sigma)=(2\pi)^{-\frac{n}{2}}exp\{-\frac{1}{2}tr\{\Sigma^{-1}[S+n(\overline{x}-\mu)(\overline{x}-\mu)']\}\}\\
\lambda(x)=\frac{sup_{\mu\in\Theta}\{p(X;\mu)\}}{sup_{\mu\in\Theta_0}\{p(X;\mu)\}}=(1+\frac{T^2}{n-1})^{\frac{n}{2}}\\
T^2=n(n-1)(\overline{x}-\mu_0)'S^{-1}(\overline{x}-\mu_0)\\
\Sigma=\frac{1}{n-1}S
$$
$T^2$是t分布在多元场合的推广主要使用了S^2统计量代替了原来的协方差矩阵。
* 拒绝域
$$
W=\{(x_1,\cdots,x_n):T^2\geq T^2_{1-\alpha}\}
$$
### 定理F分布检验
$$
F=\frac{n-p}{p(n-1)}T^2\sim F(p,n-p)
$$
## 3 两个正太总体均值相等的检验
### 协方差矩阵已知-假设检验
* 假设
$$
H_0:\mu_1=\mu_2,H_1:\mu_1\not ={\mu_2}
$$
* 检验统计量
$$
\chi^2=\frac{n_1n_2}{n_1+n_2}(\overline{x}-\overline{y})'\Sigma(\overline{x}-\overline{y})\sim \chi^2(p)
$$
* 拒绝域
$$
W=\{(x_1,\cdots,x_{n_1},y_1,\cdots,y_{n_2}):\chi^2\geq \chi^2_{1-\alpha}(p)\}
$$
### 协方差矩阵未知-假设检验
* 假设
$$
H_0:\mu_1=\mu_2,H_1:\mu_1\not ={\mu_2}
$$
* 检验统计量
$$
T^2=\frac{n_1n_2}{n_1+n_2}(\overline{x}-\overline{y})'\hat{\Sigma}^{-1}(\overline{x}-\overline{y})\\
\frac{n_1+n_2-p-1}{p(n_1+n_2-2)}T^2\sim F(p,n_1+n_2-p-1)
$$
协方差矩阵未知时,使用统计量进行表示。
* 拒绝域
$$
W=\{(x_1,\cdots,x_{n_1},y_1,\cdots,y_{n_2}):T^2\geq T^2_{1-\alpha}\}
$$