2.数理统计与参数估计-白红宇

2.数理统计与参数估计

阅读量：2239 次

发布时间：2019-05-09

本文共 2454 字，大约阅读时间需要 8 分钟。

注：以下内容整理于七月算法2016年4月班培训讲义，详见： http://www.julyedu.com/

内容简介：

A.重要统计量

B.重要定理与不等式

C.参数估计

A.重要统计量

一、概率与统计

概率：已知总体的分布情况，计算事件的概率

统计：总体分布未知，通过样本值估计总体的分布

二、概率统计与机器学习的关系

1.统计估计的是分布，机器学习训练出来的是模型，模型可能包含了多个分布。

2.训练与预测过程的一个核心评价指标是模型的误差。

3.误差可以是概率的形式，与概率紧密相关。

4.误差的定义方式不同，由此损失函数的定义方式也不同。

三、期望：加权平均值

离散型定义：

连续性定义：

期望的性质

1.E(C)=C

2.E(CX)=CE(X)

3.E(X+Y)=E(X)+E(Y)

证明:

4.如果X和Y独立，则E(XY)=E(X)E(Y)

证明：

四、方差：相对于期望的偏离程度

方差性质：

1.D(c)=0

2.D(X+c)=D(X)

3.D(kX)=k^2*D(X)

4.D(X+Y)=D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)}

如果X和Y独立，则D(X+Y)=D(X)+D(Y)

证明如下：

五、协方差(可用来降维)：

定义：Cov(X,Y)=E{[X-E(X)][Y-E(Y)}=E(XY)-E(X)E(Y)

协方差性质：

Cov(X,Y)=Cov(Y,X)

Cov(aX+b,cY+d)=acCov(X,Y)

Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)

六、独立、互斥、不相关

独立定义：P(XY)=P(X)P(Y)

互斥定义：P(XY)=0

不相关定义：Cov(X,Y)=0

X和Y独立

=>E(XY)=E(X)E(Y)

=>Cov(X,Y)=0

=>X和Y不相关

故X和Y独立可推出二者不相关，反之不成立。

不相关本质上指线性独立，即X和Y之间没有线性关系，但二者可能存在其他关系，所以不能保证X和Y独立。

但是，特别的，对于二维正态随机变量，X和Y不相关等价于X和Y独立。

七、协方差矩阵：

设n个随机变量(X1,X2,....Xn)，Cij=Cov(Xi,Xj)都存在，则称矩阵

为协方差矩阵。由于Cij=Cji，所以上述矩阵为对阵矩阵。

八、协方差的上界

当且仅当X、Y有线性关系时，等号成立。

九、相关系数：

十、矩

对于随机变量X，X的k阶原点矩为：

X的k阶中心距为：

注：期望为一阶原点矩，方差为二阶中心距

B.重要定理与不等式

一.Jensen不等式

如果f是凸函数，那么：

该不等式称为Jensen不等式。

注：该不等式有扩展形式，此处略。

二.切比雪夫不等式：未知随机变量分布，只知道E(X)和D(X)，估计P{|X-E(X)|<ε}的界限

设随机变量X的的期望为μ，方差为α^2，对于任意的正数ε,有：

该不等式称为切比雪夫不等式。

图形化描述：

证明如下：

切比雪夫不等式的意义：说明随机变量X的方差越小，事件P{|X-E(X)|<ε}发生的概率越大，即X的取值越集中在期望E(X)附近分布。

三.大数定理

1.辛钦大数定律

2.伯努利大数定理

大数定理的意义：当n很大时，随机变量X1,X2...Xn的平均值Yn在概率意义下无限接近于期望μ。

或者，可以说当n很大时，频率收敛于概率。

四.中心极限定理

C.参数估计

一.样本统计量

计算样本方差的时候为什么不是除以n而是n-1呢？

为了得到无偏估计。

那为什么除以n就是“有偏估计”呢？

以下证明旨在说明为什么除以n有误差，并不能说明为什么要除以n-1而不是n-2或n-3...

假设随机变量X的期望μ已知，而方差α^2未知。根据方差的定义，有

由此可得：

上式是基于期望μ已知的情况下计算的结果，现在考虑μ未知的情况。

我们使用样本均值代替μ，有

所以，除非样本均值恰好等于随机变量X的期望μ，否则我们一定有

这就说明了除以n是有误差的，但是，依然没有说明为啥要除以n-1。

二.样本的矩

1.k阶样本原点矩

2.k阶样本中心矩

三.矩估计

基于样本矩依概率收敛于相应的总体矩，样本矩的连续函数依概率收敛于相应的总体矩的连续函数，

我们使用样本矩作为相应的总体矩的估计量，而以样本矩的连续函数作为相应的总体矩的连续函数

的估计量，这种估计方法为矩估计法。

例1：在正态分布的总体中采样得到n个样本：X1,X2...Xn,试求μ和α^2的矩估计量。

例2：设总体X在[a,b]上服从均匀分布，a和b未知， X1,X2...Xn是来自X的样本，试求a,b的矩估计量。

由矩估计可得：

我们令总体均值、总体方差分别等于矩估计的样本均值、样本方差

解得：

四.极大似然估计(已经发生的，就是概率最大的!)

1.直观解释：设某分布的参数为θ，X1,X2...Xn为来自该分布的样本，即X1,X2...Xn已经发生了，

我们要估计的θ满足这样一个条件：在该分布下，使得X1,X2...Xn同时发生的概率最大。

举个例子：箱子里有5个球，白球和黑球，已知两种颜色球的数量比是4:1，但是不知道白球是4还是黑球是4。

即不确定黑:白=4:1 OR 白:黑=4:1，现在要对此进行估计。

现在有放回的从箱子中取球，取了3次，每次都是黑球，我们记为事件A,那么，

如果黑:白=4:1，则P(A)=0.8*0.8*0.8=0.512

如果白:黑=4:1，则P(A)=0.2*0.2*0.2=0.008

所以，基于事件A已经发生了这个事实，我们有51.2%的把握相信黑:白=4:1，而只有0.8%的把握相信白:黑=4:1。

因此，一般的讲，我们估计结果为黑:白=4:1。

2.似然函数

例1：设X~b(1,p)，X1,X2,...,Xn是来自X的一个样本，试求参数p的极大似然估计量。

设x1,x2,...,xn是相应于样本X1,X2,...,Xn的样本值。X的分布律为：

故似然函数为：

你可能感兴趣的文章

Leetcode C++《热题 Hot 100-18》538.把二叉搜索树转换为累加树

查看>>

Leetcode C++《热题 Hot 100-21》581.最短无序连续子数组

查看>>

Leetcode C++《热题 Hot 100-22》2.两数相加

查看>>

Leetcode C++《热题 Hot 100-23》3.无重复字符的最长子串

查看>>

Leetcode C++《热题 Hot 100-24》5.最长回文子串

查看>>

Leetcode C++《热题 Hot 100-28》19.删除链表的倒数第N个节点

查看>>

Leetcode C++《热题 Hot 100-29》22.括号生成

查看>>

Leetcode C++《热题 Hot 100-47》236.二叉树的最近公共祖先

查看>>

Leetcode C++《热题 Hot 100-48》406.根据身高重建队列

查看>>

《kubernetes权威指南·第四版》第二章：kubernetes安装配置指南

查看>>

Leetcode C++《热题 Hot 100-49》399.除法求值

查看>>

Leetcode C++《热题 Hot 100-51》152. 乘积最大子序列

查看>>

Leetcode C++ 《第181场周赛-1》 5364. 按既定顺序创建目标数组

查看>>

Leetcode C++ 《第181场周赛-2》 1390. 四因数

查看>>

阿里云《云原生》公开课笔记第一章云原生启蒙

查看>>

阿里云《云原生》公开课笔记第二章容器基本概念

查看>>

阿里云《云原生》公开课笔记第三章 kubernetes核心概念

查看>>

阿里云《云原生》公开课笔记第四章理解Pod和容器设计模式

查看>>

阿里云《云原生》公开课笔记第五章应用编排与管理

查看>>

阿里云《云原生》公开课笔记第六章应用编排与管理：Deployment

查看>>