博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
2.数理统计与参数估计
阅读量:2239 次
发布时间:2019-05-09

本文共 2454 字,大约阅读时间需要 8 分钟。

注:以下内容整理于七月算法2016年4月班培训讲义,详见: http://www.julyedu.com/

内容简介:

A.重要统计量
B.重要定理与不等式
C.参数估计
A.重要统计量
一、概率与统计
概率:已知总体的分布情况,计算事件的概率
统计:总体分布未知,通过样本值估计总体的分布
二、概率统计与机器学习的关系
1.统计估计的是分布,机器学习训练出来的是模型,模型可能包含了多个分布。
2.训练与预测过程的一个核心评价指标是模型的误差。
3.误差可以是概率的形式,与概率紧密相关。
4.误差的定义方式不同,由此损失函数的定义方式也不同。
三、期望:加权平均值
离散型定义:
连续性定义:
 
期望的性质
1.E(C)=C
2.E(CX)=CE(X)
3.E(X+Y)=E(X)+E(Y)
证明:
 
4.如果X和Y独立,则E(XY)=E(X)E(Y)
证明:
 
四、方差:相对于期望的偏离程度
 
方差性质:
1.D(c)=0
2.D(X+c)=D(X)
3.D(kX)=k^2*D(X)
4.D(X+Y)=D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)}
如果X和Y独立,则D(X+Y)=D(X)+D(Y)
证明如下:
五、协方差(可用来降维):
定义:Cov(X,Y)=E{[X-E(X)][Y-E(Y)}=E(XY)-E(X)E(Y)
协方差性质:
Cov(X,Y)=Cov(Y,X)
Cov(aX+b,cY+d)=acCov(X,Y)
Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
六、独立、互斥、不相关
独立定义:P(XY)=P(X)P(Y)
互斥定义:P(XY)=0
不相关定义:Cov(X,Y)=0
X和Y独立
=>E(XY)=E(X)E(Y)
=>Cov(X,Y)=0
=>X和Y不相关
故X和Y独立可推出二者不相关,反之不成立。
不相关本质上指线性独立,即X和Y之间没有线性关系,但二者可能存在其他关系,所以不能保证X和Y独立。
但是,特别的,对于二维正态随机变量,X和Y不相关等价于X和Y独立。
七、协方差矩阵:
设n个随机变量(X1,X2,....Xn),Cij=Cov(Xi,Xj)都存在,则称矩阵
 
为协方差矩阵。由于Cij=Cji,所以上述矩阵为对阵矩阵。
八、协方差的上界
 
当且仅当X、Y有线性关系时,等号成立。
九、相关系数:
 
十、矩
对于随机变量X,X的k阶原点矩为:
X的k阶中心距为:
 

注:期望为一阶原点矩,方差为二阶中心距

B.重要定理与不等式

一.Jensen不等式
如果f是凸函数,那么:

该不等式称为Jensen不等式。

注:该不等式有扩展形式,此处略。

二.切比雪夫不等式:未知随机变量分布,只知道E(X)和D(X),估计P{|X-E(X)|<ε}的界限

设随机变量X的的期望为μ,方差为α^2,对于任意的正数ε,有:

该不等式称为切比雪夫不等式。

图形化描述:

证明如下:

切比雪夫不等式的意义:说明随机变量X的方差越小,事件P{|X-E(X)|<ε}发生的概率越大,即X的取值越集中在期望E(X)附近分布。

三.大数定理

1.辛钦大数定律

2.伯努利大数定理

大数定理的意义:当n很大时,随机变量X1,X2...Xn的平均值Yn在概率意义下无限接近于期望μ。

或者,可以说当n很大时,频率收敛于概率。

四.中心极限定理

C.参数估计

一.样本统计量

计算样本方差的时候为什么不是除以n而是n-1呢?

为了得到无偏估计。
那为什么除以n就是“有偏估计”呢?
以下证明旨在说明为什么除以n有误差,并不能说明为什么要除以n-1而不是n-2或n-3...
假设随机变量X的期望μ已知,而方差α^2未知。根据方差的定义,有

由此可得:

上式是基于期望μ已知的情况下计算的结果,现在考虑μ未知的情况。

我们使用样本均值代替μ,有

所以,除非样本均值恰好等于随机变量X的期望μ,否则我们一定有

这就说明了除以n是有误差的,但是,依然没有说明为啥要除以n-1。

二.样本的矩

1.k阶样本原点矩

2.k阶样本中心矩

三.矩估计

基于样本矩依概率收敛于相应的总体矩,样本矩的连续函数依概率收敛于相应的总体矩的连续函数,
我们使用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数
的估计量,这种估计方法为矩估计法。

例1:在正态分布的总体中采样得到n个样本:X1,X2...Xn,试求μ和α^2的矩估计量。

例2:设总体X在[a,b]上服从均匀分布,a和b未知, X1,X2...Xn是来自X的样本,试求a,b的矩估计量。

由矩估计可得:

我们令总体均值、总体方差分别等于矩估计的样本均值、样本方差

解得:

四.极大似然估计(已经发生的,就是概率最大的!)

1.直观解释:设某分布的参数为θ,X1,X2...Xn为来自该分布的样本,即X1,X2...Xn已经发生了,
我们要估计的θ满足这样一个条件:在该分布下,使得X1,X2...Xn同时发生的概率最大。
举个例子:箱子里有5个球,白球和黑球,已知两种颜色球的数量比是4:1,但是不知道白球是4还是黑球是4。
即不确定黑:白=4:1 OR 白:黑=4:1,现在要对此进行估计。
现在有放回的从箱子中取球,取了3次,每次都是黑球,我们记为事件A,那么,
如果 黑:白=4:1,则P(A)=0.8*0.8*0.8=0.512
如果 白:黑=4:1,则P(A)=0.2*0.2*0.2=0.008
所以,基于事件A已经发生了这个事实,我们有51.2%的把握相信黑:白=4:1,而只有0.8%的把握相信白:黑=4:1。
因此,一般的讲,我们估计结果为黑:白=4:1。
2.似然函数

例1: 设X~b(1,p),X1,X2,...,Xn是来自X的一个样本,试求参数p的极大似然估计量。

设x1,x2,...,xn是相应于样本X1,X2,...,Xn的样本值。X的分布律为:

故似然函数为:

你可能感兴趣的文章
Leetcode C++《热题 Hot 100-18》538.把二叉搜索树转换为累加树
查看>>
Leetcode C++《热题 Hot 100-21》581.最短无序连续子数组
查看>>
Leetcode C++《热题 Hot 100-22》2.两数相加
查看>>
Leetcode C++《热题 Hot 100-23》3.无重复字符的最长子串
查看>>
Leetcode C++《热题 Hot 100-24》5.最长回文子串
查看>>
Leetcode C++《热题 Hot 100-28》19.删除链表的倒数第N个节点
查看>>
Leetcode C++《热题 Hot 100-29》22.括号生成
查看>>
Leetcode C++《热题 Hot 100-47》236.二叉树的最近公共祖先
查看>>
Leetcode C++《热题 Hot 100-48》406.根据身高重建队列
查看>>
《kubernetes权威指南·第四版》第二章:kubernetes安装配置指南
查看>>
Leetcode C++《热题 Hot 100-49》399.除法求值
查看>>
Leetcode C++《热题 Hot 100-51》152. 乘积最大子序列
查看>>
Leetcode C++ 《第181场周赛-1》 5364. 按既定顺序创建目标数组
查看>>
Leetcode C++ 《第181场周赛-2》 1390. 四因数
查看>>
阿里云《云原生》公开课笔记 第一章 云原生启蒙
查看>>
阿里云《云原生》公开课笔记 第二章 容器基本概念
查看>>
阿里云《云原生》公开课笔记 第三章 kubernetes核心概念
查看>>
阿里云《云原生》公开课笔记 第四章 理解Pod和容器设计模式
查看>>
阿里云《云原生》公开课笔记 第五章 应用编排与管理
查看>>
阿里云《云原生》公开课笔记 第六章 应用编排与管理:Deployment
查看>>