概率论
条件概率是指在给定某个条件下,某个事件发生的概率。
用于描述事件之间的依赖关系。
假设我们有两个事件 A 和 B,其中事件 A 是我们感兴趣的事件,事件 B 是某个条件。条件概率表示在已知事件 B 发生的情况下,事件 A 发生的概率,记作 $P(A|B)$。 条件概率的计算公式如下: $$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$ 其中,$P(A \cap B)$ 表示事件 A 和事件 B 同时发生的概率,称为事件 A 与事件 B 的交集。
$P(B)$ 表示事件 B 发生的概率。
条件概率的计算可以通过已知的概率和事件之间的关系来进行推导。它可以帮助我们理解事件之间的依赖关系,并在实际问题中进行推断和决策。
条件概率在很多领域都有广泛的应用,例如在机器学习中,条件概率可以用于建模和分类;在信息论中,条件概率可以用于计算熵和互信息等。 需要注意的是,条件概率的计算需要满足一些前提条件,例如事件 B 的概率不能为零,事件 A 和事件 B 之间应该是独立或有一定的关联性等。
联合概率是指多个事件同时发生的概率。
在概率论中,联合概率是一个重要的概念,用于描述多个事件之间的关系。 假设我们有两个事件 A 和 B,它们的联合概率表示为 $P(A \cap B)$,表示事件 A 和事件 B 同时发生的概率。联合概率可以通过乘法规则来计算,即: $$ P(A \cap B) = P(A) \cdot P(B|A) $$ 其中,
$P(A)$ 表示事件 A 发生的概率,
$P(B|A)$ 表示在事件 A 发生的条件下,事件 B 发生的概率,称为条件概率。
联合概率可以扩展到多个事件的情况。假设我们有 $n$ 个事件 $A_1, A_2, …, A_n$,它们的联合概率表示为 $P(A_1 \cap A_2 \cap … \cap A_n)$,可以通过乘法规则来计算,即: $$ P(A_1 \cap A_2 \cap … \cap A_n) = P(A_1) \cdot P(A_2|A_1) \cdot … \cdot P(A_n|A_1 \cap A_2 \cap … \cap A_{n-1}) $$
联合概率在概率论和统计学中有广泛的应用,例如在贝叶斯推断中,联合概率可以用于计算后验概率;在机器学习中,联合概率可以用于建模和分类等。 需要注意的是,联合概率的计算需要满足一些前提条件,例如事件之间应该是独立或有一定的关联性等。
最大似然估计(Maximum Likelihood Estimation,简称MLE)
是一种常用的参数估计方法,用于从观测数据中估计模型的参数值。
在最大似然估计中,我们假设观测数据是由某个概率分布生成的,并希望通过最大化观测数据的似然函数来确定模型参数的值。似然函数表示给定观测数据时,模型参数取某个值的概率。 具体来说,假设我们有一组独立同分布的观测数据 ${x_1, x_2, …, x_n}$,其概率密度函数(概率质量函数)为 $f(x;\theta)$,其中 $\theta$ 是待估计的参数。观测数据的似然函数定义为: $$ L(\theta) = f(x_1;\theta) \cdot f(x_2;\theta) \cdot … \cdot f(x_n;\theta) $$ 最大似然估计的思想是寻找使得似然函数取得最大值的参数值 $\hat{\theta}$,即: $$ \hat{\theta} = \arg\max_{\theta} L(\theta) $$ 通常我们更倾向于求解对数似然函数的最大值,因为对数函数是单调递增的,可以简化计算。对数似然函数定义为: $$ \log L(\theta) = \log f(x_1;\theta) + \log f(x_2;\theta) + … + \log f(x_n;\theta) $$ 通过最大化对数似然函数,可以得到最大似然估计的参数值 $\hat{\theta}$。
最大似然估计在统计学和机器学习中被广泛应用,常见的概率分布(如正态分布、伯努利分布、多项分布等)都可以使用最大似然估计来估计其参数。最大似然估计具有良好的性质,当样本足够大时,最大似然估计可以渐进地达到参数的真实值。 需要注意的是,最大似然估计并不一定能保证得到全局最优解,有时可能会收敛到局部最优解。此外,在一些情况下,最大似然估计可能会出现估计值不存在或不唯一的情况。因此,在实际应用中,需要结合领域知识和实验结果来对估计结果进行解释和评估。
概率分布(Probability distribution)
是指描述随机变量或随机事件可能取值的概率的函数或规律。
随机变量是一个变量,它的取值是由随机过程决定的。
概率分布描述了随机变量可能取值的概率,可以通过
概率密度函数(Probability Density Function,简称 PDF)或
概率质量函数(Probability Mass Function,简称 PMF)来表示。
概率密度函数(PDF)用于描述连续型随机变量的概率分布,它是一个非负函数,且满足积分为 1 的条件。
概率密度函数可以用于计算随机变量落在某个区间内的概率。
概率质量函数(PMF)用于描述离散型随机变量的概率分布,它是一个非负函数,且满足所有可能取值的概率之和为 1。概率质量函数可以用于计算随机变量取某个特定值的概率。
常见的概率分布:
正态分布(Normal distribution):也称为高斯分布,是最常见的概率分布之一,具有钟形曲线的形状。正态分布在自然界和社会现象中都有广泛的应用,例如身高、体重、智力等连续性变量的分布都可以近似为正态分布。
二项分布(Binomial distribution):描述了在一系列独立重复的是/非试验中成功次数的概率分布。例如,抛硬币、掷骰子、抽样调查等都可以用二项分布来描述。
泊松分布(Poisson distribution):用于描述在一段固定时间或空间内随机事件发生的次数的概率分布。例如,电话交换机接到的电话数量、一天内发生的交通事故数量等都可以用泊松分布来描述。
均匀分布(Uniform distribution):在给定区间内的所有取值具有相等的概率分布。例如,掷骰子、抽奖等都可以用均匀分布来描述。
指数分布(Exponential distribution):用于描述随机事件之间的时间间隔的概率分布。例如,等待下一次地震的时间、等待下一次电话的时间等都可以用指数分布来描述。
负二项分布(Negative binomial distribution):描述了在一系列独立重复的是/非试验中成功次数的概率分布,但与二项分布不同的是,负二项分布是指在达到一定的成功次数之前,失败次数的概率分布。例如,需要抛多少次硬币才能得到 5 次正面朝上的概率分布就可以用负二项分布来描述。
卡方分布(Chi-square distribution):用于描述样本方差的概率分布。在统计学中,卡方分布经常用于检验假设、构建置信区间等。
t 分布(Student’s t-distribution):用于描述小样本情况下样本均值的概率分布。在统计学中,t 分布经常用于构建置信区间、进行假设检验等。
F 分布(F-distribution):用于描述两个样本方差比值的概率分布。在统计学中,F 分布经常用于方差分析、回归分析等。
概率分布在统计学、机器学习、风险管理、金融等领域具有广泛的应用。通过对随机变量的概率分布进行建模和分析,可以帮助我们理解和预测随机现象的行为。
卡方分布(Chi-square distribution)
是一种常见的概率分布,用于描述样本方差的概率分布。
它在统计学中经常用于假设检验、构建置信区间等。
卡方分布的定义依赖于自由度(degrees of freedom)。自由度是指用于计算卡方统计量的独立观测值的个数减去约束条件的个数。
卡方分布的概率密度函数(PDF)可以用如下的公式表示: $$f(x) = \frac{1}{2^{\frac{v}{2}} \Gamma\left(\frac{v}{2}\right)} x^{\frac{v}{2}-1} e^{-\frac{x}{2}}, \quad x \geq 0$$ 其中,$v$ 表示自由度,$\Gamma(\cdot)$ 表示伽玛函数。
卡方分布的特点包括:
- 卡方分布的取值范围是非负实数,即 $x \geq 0$。
- 卡方分布的形状取决于自由度。随着自由度的增加,卡方分布的形状逐渐向右偏斜。
- 当自由度 $v$ 趋近于无穷大时,卡方分布逼近于正态分布。
卡方分布在统计学中的应用非常广泛,特别是在假设检验中。例如,卡方检验用于比较观察值与期望值之间的差异,判断两个变量之间是否存在关联。此外,卡方分布还用于构建置信区间、拟合数据分布等。
正态分布(Normal distribution)
也称为高斯分布(Gaussian distribution),是最常见的概率分布之一。它具有钟形曲线的形状,对称分布于均值周围。
正态分布的概率密度函数(PDF)可以用如下的公式表示: $$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ 其中,
$x$ 表示随机变量的取值,
$\mu$ 表示均值,
$\sigma$ 表示标准差。
正态分布的特点包括:
- 对称性:正态分布是关于均值 $\mu$ 对称的,即在均值处取得最大值,两侧的概率密度逐渐减小。
- 唯一性:正态分布由均值和标准差完全决定,相同均值和标准差的正态分布是相同的。
- 中心极限定理:当独立随机变量的样本容量足够大时,它们的和或平均值的分布会趋近于正态分布。
- 标准正态分布:当均值 $\mu=0$,标准差 $\sigma=1$ 时,正态分布称为标准正态分布。标准正态分布的随机变量记为 $Z$,其概率密度函数可以简化为 $f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}$。
正态分布在统计学和自然科学中具有广泛的应用。许多自然现象和随机变量都可以近似地服从正态分布,例如身高、体重、测量误差等。正态分布的性质和统计推断方法使其成为数据分析和模型建立中重要的工具。
贝叶斯
贝叶斯定理(Bayes’ theorem)用于计算在给定观测数据的条件下,某个事件的后验概率。
假设我们有两个事件 A 和 B,其中事件 A 是我们感兴趣的事件,事件 B 是观测到的证据。贝叶斯定理表达了在已知观测数据的情况下,事件 A 发生的概率如何更新。 贝叶斯定理的数学表达式如下: $$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$ 其中,
$P(A|B)$ 表示在观测到事件 B 的条件下,事件 A 发生的概率,称为后验概率(posterior probability)。
$P(B|A)$ 表示在事件 A 发生的条件下,观测到事件 B 的概率,称为似然度(likelihood)。
$P(A)$ 和 $P(B)$ 分别表示事件 A 和事件 B 的先验概率(prior probability)和边缘概率(marginal probability)。
贝叶斯定理的应用非常广泛,特别在统计推断、机器学习和人工智能领域中被广泛使用。通过贝叶斯定理,我们可以根据观测数据来更新对事件发生概率的估计,从而进行推断、分类、预测等任务。 需要注意的是,贝叶斯定理的有效应用需要合理的先验概率和似然度的估计。在实际应用中,我们可以通过领域知识、历史数据或其他方法来估计这些概率。