Python实践:机器学习中的统计概率分布全面解析

图片[1]-Python实践:机器学习中的统计概率分布全面解析-山海云端论坛

随机变量是概率论和统计学中的重要概念,它描述了随机试验的所有可能结果。在Python中,我们经常使用概率分布来描述随机变量的特征。本文将全面总结离散和连续概率分布,并提供相关Python代码示例。

1. 随机变量

离散随机变量

离散随机变量的可能结果是可数的。比如,抛硬币的结果可以是正面或反面。

连续随机变量

连续随机变量的可能结果是无限的。比如,人的身高可以是1.7米、1.8米等。

2. 密度函数

PMF(概率质量函数)

PMF用于描述离散变量的概率分布,返回离散随机变量等于某个特定值的概率。

图片[2]-Python实践:机器学习中的统计概率分布全面解析-山海云端论坛

PDF(概率密度函数)

PDF用于描述连续变量的概率分布,返回连续随机变量在某个范围内的概率。

图片[3]-Python实践:机器学习中的统计概率分布全面解析-山海云端论坛

CDF(累积分布函数)

CDF返回随机变量小于等于某个特定值的概率。

图片[4]-Python实践:机器学习中的统计概率分布全面解析-山海云端论坛

3. 离散分布

伯努利分布

仅有两个可能结果的单次试验。

<code>import seaborn as sns from scipy.stats import bernoulli data = bernoulli.rvs(size=1000, p=0.5) ax = sns.distplot(data, kde=False, hist_kws={"linewidth": 10, 'alpha': 1})</code>
图片[5]-Python实践:机器学习中的统计概率分布全面解析-山海云端论坛

二项式分布

多次独立的伯努利试验,返回成功次数的分布。

<code>import matplotlib.pyplot as plt from scipy.stats import binom n = 20 # 实验次数 p = 0.5 # 成功的概率 r = list(range(n + 1)) # 成功次数 pmf_list = [binom.pmf(r_i, n, p) for r_i in r] plt.bar(r, pmf_list) plt.show()</code>
图片[6]-Python实践:机器学习中的统计概率分布全面解析-山海云端论坛

均匀分布

所有结果等可能发生,比如掷骰子。

<code>import numpy as np data = np.random.uniform(1, 6, 6000) plt.hist(data, density=True, bins=6, alpha=0.5) plt.show()</code>

Poisson 分布

描述在给定时间内事件发生的次数。

<code>from scipy.stats import poisson r = range(0, 11) lambda_val = 4 # 平均事件发生次数 data = poisson.pmf(r, lambda_val) plt.bar(r, data) plt.show()</code>

4. 连续分布

正态分布

钟形曲线,常见于自然界和人类行为中。

<code>import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm x_values = np.arange(-30, 30, 0.1) y_values = norm.pdf(x_values, loc=0, scale=5) plt.plot(x_values, y_values) plt.show()</code>

其他分布

还有长尾分布、学生 t 分布、对数正态分布、指数分布、韦伯分布、Gamma 分布、Chi-squared 分布等,它们在不同的应用场景中发挥重要作用。

5. 中心极限定理

中心极限定理指出,当从任何分布中取得足够大的样本时,样本均值将近似服从正态分布。

以上就是Python中常见的离散和连续概率分布的全面总结。对这些概率分布有深入的理解对于进行统计分析、机器学习建模以及数据科学任务都非常重要。

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容