笔记 | 概率论与数理统计

本笔记是备战考研时,跟着张宇老师的概率论课程学习整理所得。且输出本笔记的主要目的是快速构建概率的基础知识体系,以便于日后复习查阅和问题探究。或是更具体的应用场景,如 机器学习数据挖掘经济统计 等领域,概率论作为这些领域的 先修课程,理论基础尤为重要。由此,无论是初入门还是温故知新,学习基础学科为必经阶段,不妨选择张宇老师的概率论课程,这不失一种高效的复习方案。

当然,笔记仅是对知识点的整理和归纳,并不能代表原本知识点的严谨定义。若有更进阶的需求,还请查阅概率论相关教材,或重温课程。

更新进度

  • 2018.10.04:完成初稿,并更新「如何处理复杂事件」章节 ( 共 4 节 );

学习资料

学习目标

  • 张宇老师 的概率论课程为框架的,围绕 五大问题 展开学习与探讨:在导课部分就明确了 课程体系学习目标,即学习什么、学了怎么用都在浓缩于五大问题当中。

    • 如何处理复杂事件 $P(A)$;
    • 如何求分布 $F(x)$、$F(x, y)$;
    • 如何求数字特征 $EX$、$DX$、$Cov(x, y)$、$\rho_{x,y}$;
    • 如何使用极限定理 ( 大样本, $n \to \infty$ );
    • 如何做估计与评价.
  • 四大问题 主要讨论的是 概率论 部分的内容,最后一问题 则是 数理统计 的内容探讨。

  • 事不宜迟,定下小目标,让自己赶紧行动起来!

壹 如何处理复杂事件

随机试验与样本空间

随机试验

  • 随机试验,记作 $E$:
    • 同条件下可重复。
    • 试验结果明确可知,且不止一个。
    • 试验前不知哪个结果会发生。

基本概念

  • 试验结果 中每一个最简单、最基本 (不可再分的结果) 叫 样本点 (基本事件),记作 $\omega$。
  • $\omega$ 的全体叫 样本空间,记作 $\Omega$。
  • 样本空间的子集随机事件,记作 $A, B, C, …$,即英文大写字母表示。
  • 子集中:
    • $\Omega$ 本身为必然事件。
    • $\emptyset$ 为不可能事件。

古典概型

概念梳理

  • 若随机事件 $E$ 的样本空间 $\Omega$ 中满足下述两种条件,称其为古典概型:
    • 存在 有限个 样本点;
    • 样本点的发生具有 等可能性.
  • 则其概率表达式为:
  • 对于概率表达式 (1),我们侧重关注其 计数方法

    • 穷举法:个数不多时,直接计数即可。
    • 集合对应法

      • 加法原理:完成一件事有 $n$ 类方法,第一类方法有 $m_1$ 种方法,第二类有 $m_2$ 种方法,完成此事共 $\sum_{i = 1}^n m_i$ 种方法。
      • 乘法原理:完成一件事有 $n$ 个步骤,第一步有 $m_1$ 种方法,第二步有 $m_2$ 种方法,第 $n$ 步有 $m_n$ 种方法,故完成此事共 $\prod_{i=1}^n m_i$ 种方法。
      • 排列:从 $n$ 个不同的元素中取出 $m(\leq n)$ 个元素,并按照一定顺序排成一列,叫做排序。所有排列的个数叫排列数,记作:

        全排列:当 $m = n$ 时,$A_n^m = \frac{n!}{0!} = n!$ 称为全排列。

      • 组合:从 $n$ 个不同元素中取出 $m(\leq n)$ 个元素,并成一组,叫组合。所有组合个数叫组合数,记作:

        注意:按照欧美规范,对于 $A_n^m$ 或是 $C_n^m$,m 和 n 的上下位置与我们平常见的是相反的,国内的教材以相反为主。

    • 对立事件思想:若研究对象是复杂的,则转而研究对立事件 $\overline{A}$,故有:

练习巩固

例题一
  • [题目] 从 0 到 9 个数字中任取 3 个不同数字,求:
    • $A_1$ = {三个数中不含 0 和 5}
    • $A_2$ = {三个数中不含 0 或 5}
    • $A_3$ = {三个数中含 0,但不含 5}
  • [分析] 令含数字 0 的事件为 $B_1$,含数字 5 的事件为 $B_2$:

    • $P(A_1) = \frac{ C_8^3 }{ C_{10}^3 } = \frac{7}{15}$

    • $P(A_2) = \frac{ C_{10}^3 - C_1^1·C_1^1·C_8^1 }{ C_{10}^3 } = \frac{14}{15}$

      $A_2$ 事件可通 对立事件思想 解题,即所有数字取值可能减去三个数中含 0 且含 5 的情况,即 $A_2 = \overline{ B_1 \bigcup B_2 } = \overline{B_1} \bigcap \overline{B_2}$。

    • $P(A_3) = \frac{ C_1^1·C_8^2 }{ C_{10}^3 } = \frac{7}{30}$

例题二
  • [题目] 袋中有 5 球,3 白 2 黑:
    • 先后有放回取 2 球,求 $B_1$ = {至少一白球}
    • 先后无放回取 2 球,求 $B_2$ = {至少一白球}
    • 任取 2 球,求 $B_3$ = {至少一白球}
  • [分析] 注意 有放回无放回 的情况,是有区别的:

    • $P(B_1) = \frac{ C_5^1·C_5^1 - C_2^1·C_2^1 }{ C_5^1·C_5^1 } = \frac{21}{25}$

    • $P(B_2) = \frac{ C_5^1·C_4^1 - C_2^1·C_1^1 }{ C_5^1·C_4^1 } = \frac{9}{10}$

    • 通过 对立事件思想 解题,先求 $\overline{B_3}$ = {任取两球全黑} 的概率:

  • 我们注意到,$P${先后无放回取,至少一白球} 等于 $P${任取两球,至少一白球} 的概率,即 $P(B_2) = P(B_3)$。

    • 得出结论P{先后无放回} = P{任取}
    • 证明方式:分别用 先后无放回取两球 的方式和 任取两球 的方式,求 P{两球全黑},再通过 1 - P{两球全黑}P{至少一白球}

      当然,任取涉及先后顺序问题,应该对任取结果作排列,但由于上下同乘一种顺序故可略去。

    • 通过此结论,计算 先后无放回 抽取问题会有很大帮助。例如,从 100 个球中,先后无放回取 40 个球,则可理解为 一把抓 40 个球

例题三
  • [题目] 袋有 100 个球,40 白 60 黑:
    • 先后 无放回 取 20 个球,求 $C_1$ = {15 白 5 黑}
    • 先后 无放回 取 20 个球,求 $C_2$ = {第 20 次取到白球}
    • 先后 有放回 取 20 个球,求 $C_3$ = {15 白 5 黑}
    • 先后 有放回 取 20 个球,求 $C_4$ = {第 20 次取到白球}
  • [分析] 根据例题二的结论,无放回抽取可等同于任意抽取。

    • $P(C_1) = \frac{ C_{40}^{15}·C_{60}^5 }{ C_{100}^{20} }$

    • $P(C_2) = \frac{C_{40}^1·99!}{100!} = \frac{40}{100}$

      • 1) 利用 抓阄模型 进行解题。即在本题中可理解为:袋中装有 100 个“灰球”,按概率摸球,则有 40% 可能摸到白球,60% 可能摸到黑球。
      • 2) 在本题中,我们可把 100 个球想象成 100 个位置,从左往右排列,位置与次数匹配。例如,我们求第 20 次取到白球的概率,即往 20 的位置只考虑放入白球的情况,剩余位置自由排列即可,故有 $C_{40}^1·99!$。

        图1-1抓阄模型演示

        图1-1 抓阄模型演示
    • $P(C_3) = C_{20}^{15}·(\frac{40}{100})^{15}·(\frac{60}{100})^5$

      • 符合二项分布,记取到白球的次数为 X (实验无非取到黑/白两种球),则可根据公式求解:
    • $P(C_4) = \frac{40}{100}$

几何概型

概念梳理

  • 定义 $\Omega$ 是一个可度量的几何区域,每个样本点的发生具有等可能性。即样本点落入 $\Omega$ 中的某一可度量子区域 $A$ 的可能性大小与 $A$ 的 几何度量 成正比,而与 $A$ 的位置及形状无关。则称其为 几何概型,记作:

练习巩固

例题一
  • [题目] 假设我上午 8:00-9:00 时间段内进入教室:
    • 求 $A_1$ = {我在 8:30-9:00 时间段进教室} 的概率
    • 求 $A_2$ = {我恰好在 8:30 进入教室} 的概率
  • [分析] 如图 1-2 所示,设 8:00-9:00 的时间段为单位 1:

    • $P(A_1) = \frac{ \frac12 }{1} = \frac12$

    • $P(A_2) = \frac01 = 0$

      在 8:30 这一刻所占长度为 “0”,只是数据研究工具的缺陷,致使测不出来。所以 $P(A) = 0$ 并不能推导 $A_2$ 为不可能事件。

      图1-2单位1长时间段

      图1-2 单位 1 长时间段
例题二
  • [题目] 君子有约,9:00-10:00 甲、乙在校门口见面,等 20 分钟即离开:
    • 求 $B$ = {甲、乙能见面} 的概率
  • [分析] 设甲出现的时间为 $x$,乙出现的时间为 $y$:

    • 则两方的时间差为 $|x - y| \leq 20, 0 \leq x \leq 60, 0 \leq y \leq 60$

      图1-3函数图像

      图1-3 $|x - y| \leq 20$ 的函数图像
    • 根据上述函数的图像可得 $P(B) = \frac{ \int_A }{ \int_\Omega } = \frac{ 1 - (\frac{40}{60})^2 }{1} = \frac59$

例题三
  • [题目] 在 (0, 1) 内随机取两个数,$P\{两数之和小于 \leq \frac65\}$
  • [解析] 由题意可得,则有:

    图1-4函数图像

    图1-4 $x + y \leq \frac65$ 的函数图像

重要公式求概率

概念梳理

对立事件
减法公式
加法公式
  • 一般情况 ( 通用公式 ):

  • 若 $A_1, A_2, …, A_n (n > 3)$ 两两互斥 (互不相容),则可得:

  • 若 $A_1, A_2, …, A_n (n > 3)$ 相互独立,则可得:

    • 相互独立:设 $A_1, A_2, …, A_n $,若对其中任意有限个 $A_{i_1}, A_{i_2}, …, A_{i_k}$ 都有 $P(A_{i_1})·P(A_{i_2})·…·P(A_{i_k})$,则称 $A_1, A_2, …, A_n $ 相互独立。
    • 妇唱夫随:$n$ 个事件相互独立 $\Longleftrightarrow$ 它们中任意一部分事件换成其各自的对立事件,所得的 $n$ 个新事件也是相互独立的。

图1-5上述公式图解

图 1-5 上述公式图解
条件概率公式

标志性词汇:已知…,当…发生了。

乘法公式

一般地,推广至 $P(A_1A_2…A_n)$:

全集分解公式

也称 全概率公式,已知第一阶段,求第二阶段。

  • 引例:设一个村子和三个小偷,小偷分别为 $A_1、A_2、A_3$,B = {村子失窃}

    • 阶段 (I). 什么人去偷:$A_1, A_2, A_3$

    • 阶段 (II). 村子失窃,各小偷去偷的概率:$P(B | A_1) = 0, P(B | A_2) = \frac12, P(B | A_3) = 1$

    • 则村子失窃的概率:

  • 定义与公式,设一随机事件 $E$ 可分两个阶段:

    • 阶段 (I) $\bigcup_{i = 1}^n A_i = \Omega, A_iA_j = \emptyset (两两互斥), i \neq j$,则称 $A_1, A_1,…, A_n$ 为 $\Omega$ 的一个划分,也叫 完备事件组
    • 阶段 (II) 事件 $B$ 发生的概率:

      • $P(B\Omega) = P(B·(\bigcup_{i = 1}^n A_i) )$ 为全集分解过程。
      • $B$ 为第 (II) 阶段,$A_i$ 为第 (I) 阶段。

贝叶斯

也称 逆概率公式,已知第二阶段反推第一阶段 ( 执果索因 )。

  • 设一随机事件 $E$ 分成两个阶段:

    • 阶段 (I) $\bigcup_{j = 1}^n A_j = \Omega, A_iA_j = \emptyset (两两互斥), j \neq i$,则称 $A_1, A_1,…, A_n$ 为 $\Omega$ 的一个划分,也叫 完备事件组
    • 阶段 (II) 已知 $B$ 发生了,求 $P(A_j | B)$:

      • $P(B | A_j)$ 是已知的。
      • 一个事件分两个阶段,考虑全概率公式。

练习巩固

例题一
  • [题目] 有甲、乙两名射击手,轮流独立射击打靶,甲命中的概率为 $\alpha$,乙命中的概率为 $\beta$。甲先射击,谁先命中谁获胜,求 $P$ = {甲获胜} 的概率。
  • [分析] 记 $A_i = \{第 i 次命中\}, i = 1, 2, …$,则有:

    • 根据独立互斥条件,结合题意可得:

    • 观察上述式子,我们可设公比 $q = (1 - \alpha)(1 - \beta)$,则公式继续往下推演:

  • [注意] $P$ = {甲获胜} 的概率:

    若 $\alpha = \beta = p$,则有:

    由此可见,先下手为强。即谁先射击,谁的胜率高。

题目二
  • [题目] 某彩票每周开奖一次,中奖概率为十万分之一,且每周开奖相互独立。某人每周买一次,坚持十年 ( 每年 52 周 ),则求 $P$ = {此人从未中奖} 的概率。
  • [分析] 记 $A_i = \{第 i 次中奖\}, \, i. = 1, 2, … 52, 且 \, p = 10^{-5}$,则有:

    由此可见,天上是不会平白无故掉馅饼

题目三
  • 10 份报名表, 3 女 7 男,先后无放回抽取,则:

    • (1) $A_1$ = {第三次取到女的报名表} 的概率
    • (2) $A_2$ = {第三次才取到女的报名表} 的概率
    • (3) $A_3$ = {已知前两次均取到男,第三次才取到女} 的概率
  • [分析]

    • (1) 由题意可知,利用 抓阄模型 进行解题,即使用 绝对概率 求解:

    • (2) 由题意可知,使用 积事件概率 求解:

    • (3) 由题意可知,使用 条件概率 求解:

题目四
  • [题目] 设两批数量相同的零件,有一批全部合格,另一批 25% 不合格,75% 合格。从两批产品中任取一件,经检验为合格品,放回原处,并从该处再取一件,求这一件为不合格的概率。

  • [分析] 从两批零件中取得不合格的事件,可分为两个阶段:

    • (Ⅰ) 选批次:第一批记作 $H_1$,第二批记作 $H_2$。
    • (Ⅱ) 取零件:合格记作 $A$,不合格记作 $\overline A$。

      由题意可知, $P(H_1) = P(H_2) = \frac12, P(A | H_1) = 1, P(A | H_2) = \frac34$

      首先,从两批产品中任取一件零件为合格品的概率,由全概率公式求得:

      再者,执因索果,已知第一次所取零件为合格品,则选自第一批、第二批的概率由贝叶斯公式可得:

      于是,设 $C_i = \{第二次是从第 i 批中取得零件的\}, i = 1, 2$,则有:

      则第二次从该处取得不合格零件的概率为:

题目五
  • [题目] 设有两箱同种零件,第一箱 50 件,10 件一等品;第二箱 30 件,18 件一等品。先从中随机挑出一箱,再从该箱中先后无放回取出两个零件,求:
    • (1) $P$ = {第一次取到一等品} 的概率
    • (2) $Q$ = {在第一次取出的是一等品的条件下,第二次仍取到一等品} 的概率
  • [分析] 从两箱中取得一等品零件的事件,可分为两个阶段:

    • (Ⅰ) 选箱子:第一箱记作 $H_1$,第二箱记作 $H_2$。
    • (Ⅱ) 取零件:第一次取到一等品记作 $B_1$,第二次取到一等品记作 $B_2$。

      由题意可知, $P(H_1) = P(H_2) = \frac12, P(B_1 | H_1) = \frac{10}{50}, P(B_1 | H_2) = \frac{18}{30}$

      (1) 由此可得,$P$ = {第一次取到一等品} 的概率为:

      (2) 依题意,可使用条件概率公式求 $P$ = {在第一次取出是一等品的条件下,第二次仍取到一等品}:

      当然,也可以参照例题四的思路解题 ( 贝叶斯 ):

贰 如何求分布

基本概念

随机变量

分布函数

离散型随机变量
连续型随机变量

常见一维分布

两点分布

二项分布

几何分布

超几何分布

泊松分布

均匀分布

指数分布

正态分布

一维随机变量及其分布函数

二维随机变量及其分布函数

叁 如何求数字特征

数学期望

方差

协方差

相关系数

肆 如何使用极限定理

依概率收敛

极限定理

大数定律

中心极限定理

伍 如何作估计

总体与样本

估计方法

矩估计

最大似然估计