From 750052a70dc78484c4d75db82c4590cfdd051bfc Mon Sep 17 00:00:00 2001 From: estomm Date: Sun, 24 Nov 2019 23:36:16 +0800 Subject: [PATCH] =?UTF-8?q?=E5=81=87=E8=AE=BE=E6=A3=80=E9=AA=8C?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- 概率论与数理统计/第11节 假设检验.md | 91 ++++++-- .../第12节 正太总体参数的假设检验.md | 61 +++++ 概率论与数理统计/第13节 Pearson检验法.md | 28 +++ 概率论与数理统计/第14节 似然比检验.md | 23 +- 概率论与数理统计/第15节 检验的优良性.md | 210 ++++++++++++++++++ 概率论与数理统计/第9节 区间估计.md | 10 +- 6 files changed, 404 insertions(+), 19 deletions(-) create mode 100644 概率论与数理统计/第12节 正太总体参数的假设检验.md create mode 100644 概率论与数理统计/第13节 Pearson检验法.md diff --git a/概率论与数理统计/第11节 假设检验.md b/概率论与数理统计/第11节 假设检验.md index f86fcd7d..eac5a518 100644 --- a/概率论与数理统计/第11节 假设检验.md +++ b/概率论与数理统计/第11节 假设检验.md @@ -1,33 +1,52 @@ # 假设检验 ## 相关定义 +> 第一章阐述样本统计量与总体属性的关系。 +> 第二章参数估计,通过样本的统计量对总体的参数进行估计。并对估计的优劣进行判断,求最优的统计量。区间估计主要是通过置信水平,求置信区间。 +> 第三章假设检验。总体分布已知,参数已知。通过样本的统计量,对参数的正确性进行验证。 +> 本节的逻辑 +> * 对参数做出假设,$\Theta_0,\Theta_1$。 +> * 计算检验统计量的接受拒绝区间$W^c,W$。 +> * 检验统计量的拒绝接受区间对应的概率。称为势和势函数。 ### 定义1:原假设与备择假设 -所要检验的假设称为原假设或零假设,记为$H_0$。而与$H_0$不相容的假设称为北泽假设或对立假设,记为$H_1$。对参数分布族$\{p(x;\theta):\theta\in\Theta\}$,原假设和北泽假设这对矛盾统一体,称为假设检验: +* 所要检验的假设称为原假设或零假设,记为$H_0$。 +* 与$H_0$不相容的假设称为备择假设或对立假设,记为$H_1$。 +* 对参数分布族$\{p(x;\theta):\theta\in\Theta\}$,原假设和北泽假设这对矛盾统一体,称为假设检验: $$ H_0:\theta\in\Theta_0,H_1:\theta\in\Theta_1 $$ ### 定义2:拒绝域、接受域、检验统计量、检验函数 +> 这里最奇怪的地方是反向表示,拒绝、失信为首选方,使用简单的方式表示。$\alpha,W,\varphi(x)=1$ +* 假设检验就是根据某一法则,在原假设和备择假设之间做出选择,基于样本做出拒绝$H_0$或接受$H_0$所依赖的法则称为检验。 -假设检验就是根据某一法则,在原假设和备择假设之间做出选择,基于样本做出拒绝$H_0$或接受$H_0$所依赖的法则称为检验。 +* 检验法则:若$(x_1,\dotsm,x_n)\in W$,则拒绝$H_0$,否则由$(x_1,\dotsm,x_n)\in W^c$,就接受$H_0$。称$W$为拒绝域,$W^c$称为接受域。 +> 拒绝度$\alpha$与拒绝域$W$一一对应。置信度$1-\alpha$与接受域(置信区间)$1-\alpha$一一对应。 -检验法则:若$(x_1,\dotsm,x_n)\in W$,则拒绝$H_0$,否则由$(x_1,\dotsm,x_n)\in W^c$,就接受$H_0$。 - -称$W$为拒绝域,$W^c$称为接受域。 +* 检验统计量:能够由统计量确定拒绝域W,则统计量为检验统计量。检验统计量的检验临界值,能够区分两个检验区间。 +* 示性函数或者检验函数 +$$ +\varphi(x)=\begin{cases} + 1,&x\in W\\ + 0,&x\notin W^c +\end{cases} +$$ +> 这里$\varphi(x)$所属的区间$W,W^c$是依赖于真实情况的,而不是假设检验中假设。所以他是没有错误的,不受假设错误影响的示性函数、检验函数。 +> 比如,假设本身错误,备择假设成立。这个时候假设的$W^c$接受域为原假设接受范围,假设的拒绝域$W$为备择假设的范围。但是示性函数拒绝域的范围为假设的接受域的范围$W^c$,接受域的范围为假设的拒绝域的范围$W$ -### 定义3:两类错误、势和势函数 +### 定义3:两类错误 -第一类错误:当原假设$H_0$本来成立,样本观察值落入拒绝与$W$,我们错误的拒绝了$H_0$,称为弃真错误,其概率: +* 第一类错误:当原假设$H_0$本来成立,样本观察值落入拒绝与$W$,我们错误的拒绝了$H_0$,称为弃真错误,其概率: $$ \alpha(\theta)=P_\theta\{x\in W\},\theta\in\Theta_0 $$ -第二类错误:当原假设$H_0$本来不成立时,样本观察值落入接受域$W^c$,我们错误的接受了$H_0$,称为取伪错误,其概率为: +* 第二类错误:当原假设$H_0$本来不成立时,样本观察值落入接受域$W^c$,我们错误的接受了$H_0$,称为取伪错误,其概率为: $$ -\beta(\theta)=P_\theta\{x\notin W\}=1-P_\theta{x\in W},\theta\in\Theta +\beta(\theta)=P_\theta\{x\notin W\}=1-P_\theta{x\in W},\theta\in\Theta_1e $$ $$ @@ -35,20 +54,62 @@ p(x\in W|H_0为真)=\alpha 接受域放弃 \\ p(x\in W^c|H_0为真) 接受域本身错误 $$ -\alpha越大,第一类错误发生的错误越小,第二类错误发生的概率越大。 +$\alpha$越大,第一类错误发生的错误越小,第二类错误发生的概率越大。 不能同时减小,增加了样本容量可以减少两类错误。 +### 定义4:势和势函数 +> 本质上是用来衡量犯错的理论概率的,与样本检验是否犯错并没有本质联系。 -## 2 正太总体的假设检验 +> 这里的势是一种概率,与区间估计的拒绝度对应。 + +> 这里的势不依赖于假设,而是一种本质的基于总体真正的属性的计算值。(假设是一种猜测,验证后才可以使准确地)$\varphi(x)$是显示总体本身真实属性的函数,不依赖于假设,与是否犯错无关。 +$H_0$不成立时,拒绝$H_0$的概率,称为势和功效。 +$$ +\gamma(\theta)=P_\theta\{x\in W\} +$$ +势函数,当$H_0$不成立时拒绝$H_0$的概率,称为势和功效。相当于拒绝度的衡量。 -## 3 Pearson检验法 - -总体分布的$\chi^2$拟合检验 +$$ +g(\theta)=P_\theta\{x\in W\}=E_\theta(\varphi(x)),\theta\in\Theta\\ +当\theta\in\Theta_0,g(\theta)=\alpha(\theta)\\ +当\theta\in\Theta_1,g(\theta)=\gamma(\theta) +$$ +### 区间估计与假设检验 +* 二者都具有:总体、参数、(统计量的)区间、概率。 -### 二维列链表的独立性检验 +* 区间估计。总体分布已知。参数未知。参数的分布范围与概率对应。本质上在于确定区间范围与概率的对应。是一种理论计算,不涉及具体的样本。 +* 假设检验。总体分布已知。参数未知。估计参数,使用统计量的区间进行判定。概率表示出错的范围。本质上在于确定区间范围与参数假设的对应。是一种实际的计算,需要具体的样本验证。 + +* 这里在逻辑上没有说接受概率和拒绝概率。接受概率和拒绝概率是区间估计那里的置信度和拒绝度。而这里用犯错概率来引入概率的影响,因为这里的接受和拒绝依赖于实际的样本,而区间估计并不依赖于实际的样本,是一种理论计算。所以犯错依赖于概率。 + +### 定义:检验水平 +* 条件 +$$ +\alpha\in(0,1),\forall \theta\in\Theta\\ +E_\theta(\varphi(x))\leq\alpha +$$ +* 结论 + +$$ +\varphi(x)是一个显著性水平为\alpha 的检验函数。 +$$ +* 条件 +$$ +\alpha=sup\{E_\theta(\varphi(x)),\theta\in\Theta\} +$$ +* 结论 + +$$ +\alpha 称为真实水平 +$$ +> 说明: +> 分位数:概率和概率分位数 +> 区间估计:置信区间和置信水平 +> 假设检验:接受域、拒绝域和概率 +> 本质上都是区间积分与值的关系。在概率分布函数图像中即面积和面积临界值的关系。 diff --git a/概率论与数理统计/第12节 正太总体参数的假设检验.md b/概率论与数理统计/第12节 正太总体参数的假设检验.md new file mode 100644 index 00000000..2668c753 --- /dev/null +++ b/概率论与数理统计/第12节 正太总体参数的假设检验.md @@ -0,0 +1,61 @@ +# 正太总体参数的假设检验 +> 一会单独复习这里 +## 1 单个总体-方差已知-均值检验 + +### 假设检验类型 +$$ +\begin{aligned} +H_0:\mu=\mu_0,& H_1:\mu>\mu_0\\ +H_0:\mu\leq\mu_0,&H_1:\mu>\mu_0\\ +H_0:\mu=\mu_0,&H_1:\mu<\mu_0\\ +H_0:\mu\geq\mu_0,&H_1:\mu<\mu_0 +\end{aligned} +$$ + + +## 2 单个总体-方差未知-均值检验 + + +## 3 单个总体-方差检验 +不同的单侧假设问题 +$$ +\begin{aligned} +H_0:\sigma^2=\sigma^2_0,& H_1:\sigma^2>\sigma^2_0\\ +H_0:\sigma^2\leq\sigma^2_0,&H_1:\sigma^2>\sigma^2_0\\ +H_0:\sigma^2=\sigma^2_0,&H_1:\sigma^2<\sigma^2_0\\ +H_0:\sigma^2\geq\sigma^2_0,&H_1:\sigma^2<\sigma^2_0 +\end{aligned} +$$ + +## 4 两个总体-均值相等 + +$$ +H_0:\mu_1=\mu_2,H_1:\mu_1\not ={\mu_2} +$$ +不同的单侧假设问题 +$$ +H_0:\mu_1=\mu_2,H_1:\mu_1>{\mu_2}\\ +H_0:\mu_1\leq\mu_2,H_1:\mu_1>{\mu_2}\\ +H_0:\mu_1=\mu_2,H_1:\mu_1<{\mu_2}\\ +H_0:\mu_1=\geq_2,H_1:\mu_1\not <{\mu_2} +$$ +### 方差$\sigma_1^2,\sigma_2^2$已知 +### 方差$\sigma_1^2,\sigma_2^2$未知,$\sigma_1^2=\sigma_2^2=\sigma^2$ +### 方差$\sigma_1^2,\sigma_2^2$未知,$n_1=n_2=n$ +### 方差$\sigma_1^2,\sigma_2^2$未知,$\sigma^2_1\not =\sigma_2^2,n_1\not = n_2$ + +## 5 两个总体-方差相等 + +$$ +H_0:\sigma^2=\sigma^2_0,H_1:\sigma^2>\sigma^2_0\\ +$$ +存在的单侧假设检验问题 +$$ +\begin{aligned} +H_0:\sigma^2\leq\sigma^2_0,&H_1:\sigma^2>\sigma^2_0\\ +H_0:\sigma^2=\sigma^2_0,&H_1:\sigma^2<\sigma^2_0\\ +H_0:\sigma^2\geq\sigma^2_0,&H_1:\sigma^2<\sigma^2_0 +\end{aligned} +$$ + +## p值 \ No newline at end of file diff --git a/概率论与数理统计/第13节 Pearson检验法.md b/概率论与数理统计/第13节 Pearson检验法.md new file mode 100644 index 00000000..d61b426b --- /dev/null +++ b/概率论与数理统计/第13节 Pearson检验法.md @@ -0,0 +1,28 @@ +# Pearson检验 + +## 1 总体分布的$\chi^2$拟合检验 + +### 定理:Pearson定理 +* 条件 +$$ +样本容量n充分(n>=50),无论总体服从何种分布F_0(x)\\ +\chi^2=\sum_{i=1}^k\frac{(f_i-np_i)^2}{np_i}\\ +$$ +* 结论 +$$ +统计量\chi^2服从自由度为k-1的\chi^2分布 +$$ +### 步骤 + +1. 把实轴$(-\infin,+\infin)$分成k个互不相交的区间$A_i=(a_i,a_{i+1}],i=1,2,\dotsm,k$,其中$a_1,a_{k+1}$分别取$-\infin,+\infin$。区间划分视具体情况而定。 +2. 计算概率。计算$np_i$称为理论频数 +$$ +p_i = P\{X\in A\}=F_0(a_{i+1})-F_0(a_i),i=1,2,\dotsm,k\\ +$$ +3. 计算样本观察值$x_1,\dotsm,x_n$落在区间$A_i$上的个数$f_i$,称为实际频数。 +4. 通过计算公式计算$\chi^2$的值 +5. 对于给定的显著性水平$\alpha$可得临界值$\chi^2_{1-\alpha}(k-1)$ +6. 做出推断。拒绝域$W=\{(x_1,\dotsm,x_n):\chi^2 \geq\chi^2_{1-\alpha}(k-1)\}$。当$\chi^2\in W$时拒绝$H_0$,否则接受$H_0$ + + +## 2 二维列联表的独立检验 \ No newline at end of file diff --git a/概率论与数理统计/第14节 似然比检验.md b/概率论与数理统计/第14节 似然比检验.md index 1b798773..c62bc18d 100644 --- a/概率论与数理统计/第14节 似然比检验.md +++ b/概率论与数理统计/第14节 似然比检验.md @@ -1,11 +1,30 @@ # 似然比检验 -## +## 1 似然比检验 + +### 似然比 +* 假设检验 +$$ +H_0:\theta\in\Theta_0,H_1:\theta\in\Theta_1\\ +\Theta=\Theta_0\cup\Theta_1 +$$ +* 似然比统计量 +$$ +\lambda(x)=\frac{\sup_{\theta\in\Theta_1}\{p(x_1,\dotsm,x_n;\theta)\}}{\sup_{\theta\in\Theta_0}\{p(x_1,\dotsm,x_n;\theta)\}}\\ +or\\ +\lambda(x)=\frac{\sup_{\theta\in\Theta}\{p(x_1,\dotsm,x_n;\theta)\}}{\sup_{\theta\in\Theta_0}\{p(x_1,\dotsm,x_n;\theta)\}}\\ +$$ +* 临界值 +$$ +\lambda(x)\geq c\\ +W={(x_1,x_2,\dotsm,x_n):\lambda(x)\geq c}\\ +P_{\theta_0}(\lambda(x)\leq \alpha),\theta\in\Theta_0 +$$ -### 结题步骤 +### 解题步骤 1. 构造似然比函数 2. 计算并化简 diff --git a/概率论与数理统计/第15节 检验的优良性.md b/概率论与数理统计/第15节 检验的优良性.md index e69de29b..b43bf7b5 100644 --- a/概率论与数理统计/第15节 检验的优良性.md +++ b/概率论与数理统计/第15节 检验的优良性.md @@ -0,0 +1,210 @@ +# 检验的优良性 + +## 1 Neyman-Pearson引理 + +### 定义:最优势检验 + +* 声明 +$$ +检验问题:H_0:\theta=\theta_0,H_1:\theta=\theta_1 +$$ +* 条件 +$$ +存在检验水平\alpha的检验函数\varphi^*\in\varPhi_\alpha,\\ +任一水平为\alpha的检验\varphi\in\varPhi_\alpha,有:\\ +E_{\theta_1}(\varphi^*(x))\geq E_{\theta_1}(varphi(x))成立\\ +$$ +* 结论 +$$ +成检验函数\varphi^*为假设检验的水平为\alpha的最优势检验。(MPT) +$$ + +### 定理:Neyman-Pearson基本引理 +* 声明 +$$ +检验水平\alpha,检验函数\varphi(x),\varphi\in\varPhi_\alpha +$$ +* 条件 +$$ +\varphi(x)=\begin{cases} + 1,\lambda(x)>k\\ + 0,\lambda(x)k\\ + 0,\lambda(x)\theta_0 +$$ +* 结论1 +$$ +水平为\alpha 的一致最优势检验存在\\ +检验函数为: +\varphi^*(x)=\begin{cases} + 1, T(x)>c\\ + r,T(x)=c\\ + 0,T(x)\theta_0结论成立\\ +H_0:\theta=\theta_0,H_1:\theta<\theta_0修改检验符号\\ +H_0:\theta\geq\theta_0,H_1:\theta<\theta_0修改检验符号\\ +$$ + +### 定理:双侧一致最优势检验存在定理 +* 声明 +$$ +样本(x_1,\dotsm,x_n)\\ +联合分布函数p(x;\theta) +$$ + +* 条件 +$$ +p(x;\theta)=d(\theta)h(x)exp\{c(\theta)T(x)\}\\ +\theta是实值函数,c(\theta)是关于\theta严格单调增函数\\ +双侧假设检验H_0:\theta\leq\theta_1,或\theta\geq\theta_2,H_1:\theta_1<\theta>\theta_2 +$$ +* 结论 +$$ +水平为\alpha 的一致最优势检验存在\\ +检验函数为: +\varphi^*(x)=\begin{cases} + 1, c_1c_2 +\end{cases}\\ +常数c,r\in[0,1],E_{\theta_1}(\varphi^*(x))=\alpha,E_{\theta_2}(\varphi^*(x))=\alpha +$$ + +## 3 一致最优势无偏检验 + +### 定义:无偏检验 +* 声明 +$$ +检验类型:H_0:\theta=\Theta_0,H_1:\theta\in\Theta_1 +$$ +* 条件 +$$ +势函数g_\varphi(\theta)=E_\theta(\varphi(x))满足: +\begin{cases} + g_\varphi(\theta)\leq\alpha,\theta\in\Theta_0\\ + g_\varphi(\theta)\geq\alpha,\theta\in\Theta_1 +\end{cases} +$$ +* 结论 + +$$ +\varphi(x)是水平为\alpha的一致最优势检验就一定是无偏检验。 +$$ +### 定义:一致最优势无偏检验 +* 声明 + +$$ +检验类型:H_0:\theta=\Theta_0,H_1:\theta\in\Theta_1 +$$ +* 条件 + +$$ +存在检验水平为\alpha的无偏检验函数\varphi^*(x)\\ +使得任意水平\alpha任意的\theta的无偏检验函数满足不等式:\\ +E_{\theta}(\varphi^*(x))\geq E_\theta(\varphi(x)) + +$$ +* 结论 +$$ +称检验函数\varphi^*为水平为\alpha的一直最优势无偏检验UMPUT +$$ + +### 定理:一致最优势无偏检验存在定理 +* 声明 +$$ +样本(x_1,\dotsm,x_n)\\ +联合分布函数p(x;\theta) +$$ + +* 条件 +$$ +p(x;\theta)=d(\theta)h(x)exp\{c(\theta)T(x)\}\\ +\theta是实值函数,c(\theta)是关于\theta严格单调增函数\\ +双侧假设检验H_0:\theta\leq\theta_1,或\theta\geq\theta_2,H_1:\theta_1<\theta>\theta_2 +$$ +* 结论 +$$ +水平为\alpha 的一致最优势无偏检验存在\\ +检验函数为: +\varphi^*(x)=\begin{cases} + 1, T(x)c_2\\ + r_i,T(x)=c_i,i=1,2\\ + 0,c_1c_2\\ + r_i,T(x)=c_i,i=1,2\\ + 0,c_1 * 置信度与置信区间之间存在不等式关系。置信度---随机变量区间的概率分布,之间存在不等式关系。可以通过其不等式关系+枢轴变量法,求得当前>=当前置信度$1-\alpha$的置信区间。 +> * 在相同的置信区间下,置信度越高越好。在相同的置信度下,置信区间越小,表示精确度越高,越好。 +> * 置信度表示可信程度,越高越好,置信区间表示精确度,越小越好。 +> * 当样本容量n固定式,置信度越大,估计参数的可信度就越高,但置信区间也越大,同时会降低精确度。 +> * 当置信区间越小,置信区间的精确度会提高,但置信度减小,可信度会变低。 +> * 精确度和可信度是一对不可调和的矛盾。 -> 置信度、拒绝度---随机变量区间的概率分布,之间存在不等式关系。可以通过其不等式关系+枢轴变量法,求得当前>=当前置信度$1-\alpha$的置信区间。 ## 2 枢轴变量法 > t分布当自由度超过45之后可以看做N正太分布。