概率论学习小结

2021-11-29

字数统计: 2.8k字 | 阅读时长≈ 9分钟

前段时间学习了MIT的应用概率论课程，并阅读了对应的教材《概率导论》，下面这篇博文简单回忆一下，这篇不是笔记，笔记也就抄书，用得着直接去翻书就好啦。一个工科生的视角,相当不严谨不本质

第一章样本空间与概率

这一章介绍的应该算是基础概念，但却是整本书最为核心的一章，讲述的是古典概型居多，描述的也是离散样本空间事件发生的概率，但是全书的后面很多章节可以算作是对这一章的更为精确的数学描述，并没有引入很多新的思想，不过是微积分在这章内容上的一些小应用。

集合：集合论是现代数学的基石，基本每一本基础一点的数学教材都会介绍集合，此书也不例外，基本上是复习了一下并集、交集、差集以及一些最为基本的性质。
概率模型：现实生活中一些未知的事情如何去描述它们？就需要建立一个数学模型，让我们对这些事情有一些更为理性的认知，也方便研究，所以会有概率模型。如何选择样本空间？怎么样简洁易懂地描述样本空间？前者基于你要解决的问题，后者有比如列表格，序贯图等方法。那么这个数学模型有啥特性？应该遵循概率公理（非负，可加，归一化）。连续的离散的都可以建模。另外还有一些性质，可以结合韦恩图来很好的解决。
条件概率：日常生活中，如果一件事情发生了，那么发生另外一件事情的概率是多少？这就要用到条件概率了，条件概率也是概率，满足上面提到的三条公理，只不过是样本空间发生了一点变化而已。

很重要的一个公式就是

$P(A|B) = \frac{P(A\cap B)}{P(B)}$
全概率定理和贝叶斯准则：全概率定理说的是，我知道一件事可能发生的原因，我也知道每种原因会导致发生这件事的条件概率，现在要求这件事发生的概率,算是根据原因求结果。

贝叶斯准则说的是，我知道一件事发生可能的原因，也知道每种原因会导致这件事发生的条件概率，现在我知道这件事情发生，我想知道是由哪种原因导致的,算是执果索因

分别对应着下面的两个公式

$P(A) = P(A|B_1)P(B_1) + …+P(A|B_n)P(B_n)$

$P(B_i|A) = \frac{P(A\cap B_i)}{P(A)} = \frac{P(A|B_i)P(B_i)}{P(A) = P(A|B_1)P(B_1) + …+P(A|B_n)P(B_n)}$

上面三个公式就是整个概率论最为重要的三个公式了，后面的基本所有内容都是围绕这三个公式展开的
独立性：独立性描述的是一件事情是否发生不影响另外一件事是否发生

用公式描述就是 $P(A|B) = P(A)$,也就是B发不发生和A没有一毛钱的关系，这样AB就是独立的，但是数学家追求更加完善的定义，上面这里P(B)不能为0，这显然是不好的，所以定义成了$P(A\cap B) = P(A) P(B)$,这就是我们熟知的独立性的公式，但是要记住，对于工程应用来说，其本质还是那个不咋完美的公式。

不知道工程上这种概率为0,但是还需要纳入考虑的地方多不多

这个概念也算是最为重要的概念之一了,在工程实践中,很多地方都可以简化为独立模型
计数法计数法实际上属于组合数学的内容,以后有时间要去看看组合数学,这本书主要介绍了排列组合和分割并且运用对同一个问题的不同视角证明了一些恒等式,这个思想还是很有意思的,想到学高代的时候,应该也有一些证明运用了这种思想的.

第二章离散随机变量

这一章是对第一章内容的数学描述,所以看起来和第一章差不太多

基本概念: 我们可以用事件来描述一个随机变量,比如说事件A表示掷一次骰子掷到了6,那么P(A)就是这个事件发生的概率,但是这么描述起来未免比较麻烦,所以就有了随机变量,注意随机变量不是一个变量,它是一个映射,他将样本空间映射到实数空间,具体来说,它把每种可能映射成一个数,这样表述起来更为方便. 所以当我们说一个随机变量取什么什么值的时候,表示的是这个值对应的事件发生.
分布列PMF : 把样本空间所有的结果的概率列出来,这是一个很常规的操作是吧.高大上一点,我们引入了随机变量,按照对应的实数空间的值把这些结果表示出来就是分布列了,其本质就是事件发生的概率.
随机变量的函数: 这就是引入随机变量的派生物了,既然随机变量的值域弄到了实数域了,那么自然是可以对一些随机变量做一些函数操作的,比如Y=g(X), g(X)其实就是一个复合函数,X把样本空间映射到实数域,那么g就是一个正常的实值函数,所以Y也是把这个样本空间映射到实数域,这个是很好理解的.
期望均值和方差: 重要的描述量.在实际生活中,建立了上面的一些模型之后,知道个概率好像确实有很大的作用的,但是有时间还需要对一个概率模型有更加精细的描述量的,这个时候就有期望和方差了.期望描述的这个随机变量平均能取到什么值,方差描述的就是这些变量分散的程度

注意: 同一个样本空间,由于随机变量的定义方式不同,可能结果天差地别,所以还是尽量给随机变量一些有意义的值吧,不容易反直觉

这一节说了算法和一些基本性质,都是很trivial的
多个随机变量的联合分布列: 描述的其实就是两个样本空间(或者在同一个样本空间里),两件事件同时发生的概率,很简单哈
条件: 条件分布列就是第一章的公式
- 独立性: 第一章公式

第三章一般随机变量

这一章也是第一章的数学化,只不过考虑的是连续的随机变量罢了.

连续随机变量和概率密度函数: 概率密度函数 $f(x)dx$ 其实就可以理解成在$X=x$的概率了,用这个来做数学推导就很简单啦
分布函数: 连续型的和离散型的出现了不一致,这个时候就需要一个统一的工具来研究这个啦,这个时候就引入了分布函数,知道这个就完事了
正态随机变量: 这个单独成为一节是很有道理的,因为这个实在是太重要了,对于一个不知道分布的独立随机变量,做了很多次之后就变成了一个正态随机变量啦. 独立的正态随机变量相加也是正态随机变量啦
多个随机变量的联合概率密度 $f(x,y)dxdy$就可以理解成$X=x,Y=y$的概率啦,用这个推公式就完事啦
条件和独立性: 第一章的扩展呀
连续贝叶斯准则: 第一章的扩展呀

看到了吧, 这两章就是第一章的数学描述,换了个皮而已

第四章随机变量的深入内容

随机变量函数的概率密度函数: 实值函数就可以这样来
协方差和相关: 很重要的一个概念, 描述的是两个随机变量的线性关系,即两个随机变量有啥关系 不相关不一定是独立的,独立一定是不相关的,相关更多是描述线性关系,但是可能有其他非线性关系存在,所以相关和独立是不太一样的
条件期望和条件方差: 这个就是纯纯的trick了,并不直观,但是动机是有的,因为经常遇到一些很难求期望和方差的情况呀,这个时候这些公式就可以起作用啦,所以归类到了trick
矩母函数: 在这本书里,这个概念引入得十分不自然,感觉只是提供了一些证明得捷径,并没有很强的动机,归为trick
随机数个相互独立的随机变量之和: 第3节的应用? 这个应该是有用的,但是目前还没体会到实际的作用,应该到更加复杂的模型里有一些用武之地

第五章极限理论

这一章的中心思想: 独立重复实验做多了就是正态分布了

马尔可夫和切比雪夫不等式: 均值小,随机变量偏离均值的概率小, 方差小,随机变量偏离均值的概率小
弱大数定律: 做了很多次实验, 结果的均值偏离分布的均值的概率很小
依概率收敛
中心极限定理: 重复实验做多了就逼近正态分布
强大数定律: 做了很多次实验,其均值等于分布的均值的概率为1

第六章伯努利过程和泊松过程

很有意思的一章,主要讲述的是到达过程

第七章马尔可夫过程

高潮章节

但是第六章第七章都是属于随机过程的内容了,很多东西我并没有学明白,因为没有做很多习题,理解不是很到位,这个我现在用到的不是很多,感觉没有动机,所以理解不是很深刻

以上就是学习的概率论的主要知识了,接下来概率统计方面的学习安排是:

概率导论这本书肯定还是要常常复习的, 把习题做一做,这些题目都是有实际应用背景的
唐丽英老师的统计学 1 2 这门课也会复习一下概率统计的知识,可以复习一下,希望能构建一个更为完整的知识体系

第一章 样本空间与概率

第二章 离散随机变量

第三章 一般随机变量

第四章 随机变量的深入内容

第五章 极限理论

第六章 伯努利过程和泊松过程

第七章 马尔可夫过程