数据分析师必备的五大统计指标

今天给大家分享 5 个常见的描述性统计指标。

1、平均值 平均值,也称为平均数,是衡量集中趋势的常用指标。

它是通过将数据集中的所有值相加并除以观测总数来计算的。

平均值提供用于总结数据集的单个代表值。

但是,它可能会受到异常值和偏态分布的影响。

均值的局限性:

  • 对异常值敏感:异常值或极值可能会显着影响平均值。一些极值可能会扭曲数据的整体情况,使平均值不太能代表集中趋势。
  • 偏斜数据:在存在偏斜分布(数据分布不对称)的情况下,平均值可能无法准确代表典型值。
  • 样本大小和变异性:均值可能对样本大小和变异性敏感。由于样本量较小,平均值可能无法提供总体平均值的可靠估计。此外,如果数据存在较高的变异性或广泛的分布,则平均值可能无法充分概括分布。

以下是一些 Python 中计算平均值的代码示例

<code># Using the statistics module import statistics data = [75, 80, 85, 90, 95] mean = statistics.mean(data) print(mean) # Using the numpy library import numpy as np data = [75, 80, 85, 90, 95] mean = np.mean(data) print(mean) # Without using any libraries data = [75, 80, 85, 90, 95] mean = sum(data) / len(data) print(mean)</code>

2、中位数 中位数是集中趋势的另一种度量,表示数据集按升序或降序排序时的中间值。

与均值不同,中值受极值的影响较小,因此适合偏态分布。

它在处理有序数据或倾斜数据时特别有用。

以下是 Python 中计算中位数的一些代码示例。

<code># Using the statistics module import statistics data = [5, 2, 8, 3, 9, 4, 1, 7, 6] median = statistics.median(data) print("Median:", median) # Using the numpy library import numpy as np data = np.array([5, 2, 8, 3, 9, 4, 1, 7, 6]) median = np.median(data) print("Median:", median)</code>

3、标准差 标准差衡量数据围绕均值的离散程度或分布情况。

它量化数据点偏离平均值的程度。

较高的标准差表明变异性较大,而较低的标准差表明数据点紧密聚集在平均值周围。

标准差对于理解分布和评估均值作为代表性度量的可靠性至关重要。

标准差的限制:

  • 对异常值敏感:标准差对数据集中的极值或异常值敏感。异常值可能会显着影响标准差,导致其出现偏差或误报。
  • 对偏态分布不稳健:标准差假设数据呈正态分布。在偏态分布的情况下,数据分布不对称,标准差可能无法准确地表示变异性。
  • 缺乏上下文:标准差本身并不能提供有关数据的上下文信息。它是一种量化变异性的数值度量,但不能提供对潜在模式或趋势的洞察。
  • 值的权重不相等:在计算变异性时,标准差同等对待每个数据点。然而,在某些情况下,某些数据点可能更重要或具有更大的权重,而标准差没有考虑到这一点。

以下是一些用 Python 计算标准差的代码示例。

<code># Using the statistics module import statistics data = [1, 2, 3, 4, 5] std_dev = statistics.stdev(data) print("Standard Deviation:", std_dev) # Using the numpy library import numpy as np data = [1, 2, 3, 4, 5] std_dev = np.std(data) print("Standard Deviation:", std_dev) # Using the pandas library import pandas as pd data = [1, 2, 3, 4, 5] df = pd.DataFrame(data) std_dev = df.std().values[0] print("Standard Deviation:", std_dev)</code>

4、百分位数 百分位数将数据集划分为相等的区间,表示数据集中某个值的相对地位。

中位数可以视为第 50 个百分位数,表示 50% 的数据低于该值,50% 的数据高于该值。 百分位数对于分析数据分布、识别异常值以及了解数据集不同部分中值的分布非常有用。

<code>import numpy as np # Example dataset data = np.array([10, 15, 20, 25, 30, 35, 40, 45, 50]) # Calculating the 50th percentile (median) median = np.percentile(data, 50) print("Median:", median) # Calculating the 25th percentile percentile_25 = np.percentile(data, 25) print("25th Percentile:", percentile_25) # Calculating the 75th percentile percentile_75 = np.percentile(data, 75) print("75th Percentile:", percentile_75)</code>

5、偏度和峰度 偏度衡量数据集分布的不对称性。

正偏度表示右侧尾部较长,而负偏度表示左侧尾部较长。

另一方面,峰度衡量分布的峰度或平坦度。

高峰度表示分布更尖,尾部更重,而低峰度表示分布更平坦。

偏度和峰度提供了对平均值和标准差之外的数据分布形状的洞察。

<code>import scipy.stats as stats # Example dataset data = [10, 15, 20, 25, 30, 35, 40, 45, 50] # Calculating skewness skewness = stats.skew(data) print("Skewness:", skewness) # Calculating kurtosis kurtosis = stats.kurtosis(data) print("Kurtosis:", kurtosis)</code>

最后给大家分享一个统计相关的思维导图。

概率分布

图片[1]-数据分析师必备的五大统计指标-山海云端论坛

假设检验

图片[2]-数据分析师必备的五大统计指标-山海云端论坛

区间估计

图片[3]-数据分析师必备的五大统计指标-山海云端论坛
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容