数据分析师必备的五大统计指标-山海云端论坛

今天给大家分享 5 个常见的描述性统计指标。

1、平均值 平均值，也称为平均数，是衡量集中趋势的常用指标。

它是通过将数据集中的所有值相加并除以观测总数来计算的。

平均值提供用于总结数据集的单个代表值。

但是，它可能会受到异常值和偏态分布的影响。

均值的局限性：

对异常值敏感：异常值或极值可能会显着影响平均值。一些极值可能会扭曲数据的整体情况，使平均值不太能代表集中趋势。
偏斜数据：在存在偏斜分布（数据分布不对称）的情况下，平均值可能无法准确代表典型值。
样本大小和变异性：均值可能对样本大小和变异性敏感。由于样本量较小，平均值可能无法提供总体平均值的可靠估计。此外，如果数据存在较高的变异性或广泛的分布，则平均值可能无法充分概括分布。

以下是一些 Python 中计算平均值的代码示例

<code># Using the statistics module import statistics data = [75, 80, 85, 90, 95] mean = statistics.mean(data) print(mean) # Using the numpy library import numpy as np data = [75, 80, 85, 90, 95] mean = np.mean(data) print(mean) # Without using any libraries data = [75, 80, 85, 90, 95] mean = sum(data) / len(data) print(mean)</code>

2、中位数 中位数是集中趋势的另一种度量，表示数据集按升序或降序排序时的中间值。

与均值不同，中值受极值的影响较小，因此适合偏态分布。

它在处理有序数据或倾斜数据时特别有用。

以下是 Python 中计算中位数的一些代码示例。

<code># Using the statistics module import statistics data = [5, 2, 8, 3, 9, 4, 1, 7, 6] median = statistics.median(data) print("Median:", median) # Using the numpy library import numpy as np data = np.array([5, 2, 8, 3, 9, 4, 1, 7, 6]) median = np.median(data) print("Median:", median)</code>

3、标准差 标准差衡量数据围绕均值的离散程度或分布情况。

它量化数据点偏离平均值的程度。

较高的标准差表明变异性较大，而较低的标准差表明数据点紧密聚集在平均值周围。

标准差对于理解分布和评估均值作为代表性度量的可靠性至关重要。

标准差的限制：

对异常值敏感：标准差对数据集中的极值或异常值敏感。异常值可能会显着影响标准差，导致其出现偏差或误报。
对偏态分布不稳健：标准差假设数据呈正态分布。在偏态分布的情况下，数据分布不对称，标准差可能无法准确地表示变异性。
缺乏上下文：标准差本身并不能提供有关数据的上下文信息。它是一种量化变异性的数值度量，但不能提供对潜在模式或趋势的洞察。
值的权重不相等：在计算变异性时，标准差同等对待每个数据点。然而，在某些情况下，某些数据点可能更重要或具有更大的权重，而标准差没有考虑到这一点。

以下是一些用 Python 计算标准差的代码示例。

<code># Using the statistics module import statistics data = [1, 2, 3, 4, 5] std_dev = statistics.stdev(data) print("Standard Deviation:", std_dev) # Using the numpy library import numpy as np data = [1, 2, 3, 4, 5] std_dev = np.std(data) print("Standard Deviation:", std_dev) # Using the pandas library import pandas as pd data = [1, 2, 3, 4, 5] df = pd.DataFrame(data) std_dev = df.std().values[0] print("Standard Deviation:", std_dev)</code>

4、百分位数 百分位数将数据集划分为相等的区间，表示数据集中某个值的相对地位。

中位数可以视为第 50 个百分位数，表示 50% 的数据低于该值，50% 的数据高于该值。百分位数对于分析数据分布、识别异常值以及了解数据集不同部分中值的分布非常有用。

<code>import numpy as np # Example dataset data = np.array([10, 15, 20, 25, 30, 35, 40, 45, 50]) # Calculating the 50th percentile (median) median = np.percentile(data, 50) print("Median:", median) # Calculating the 25th percentile percentile_25 = np.percentile(data, 25) print("25th Percentile:", percentile_25) # Calculating the 75th percentile percentile_75 = np.percentile(data, 75) print("75th Percentile:", percentile_75)</code>

5、偏度和峰度 偏度衡量数据集分布的不对称性。

正偏度表示右侧尾部较长，而负偏度表示左侧尾部较长。

另一方面，峰度衡量分布的峰度或平坦度。

高峰度表示分布更尖，尾部更重，而低峰度表示分布更平坦。

偏度和峰度提供了对平均值和标准差之外的数据分布形状的洞察。

<code>import scipy.stats as stats # Example dataset data = [10, 15, 20, 25, 30, 35, 40, 45, 50] # Calculating skewness skewness = stats.skew(data) print("Skewness:", skewness) # Calculating kurtosis kurtosis = stats.kurtosis(data) print("Kurtosis:", kurtosis)</code>

最后给大家分享一个统计相关的思维导图。

概率分布

假设检验

区间估计

版权声明 1 本网站名称：山海云端-专注于PHP与网络安全
2 本站永久网址：www.shserve.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ1790643379进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

数据分析师必备的五大统计指标

请登录后发表评论