10 个提升效率的 Pandas 函数,你用过吗?

图片[1]-10 个提升效率的 Pandas 函数,你用过吗?-山海云端论坛

Pandas 是 Python 中最主要的数据分析库之一,它提供了非常多的函数和方法,可以高效地处理并分析数据。这篇文章将会配合实例,讲解 10 个重要的 Pandas 函数。其中有一些很常用,相信你可能用到过。还有一些函数出现的频率没那么高,但它们同样是分析数据的得力帮手。

1. Query

Query 是 Pandas 的过滤查询函数,使用布尔表达式来查询 DataFrame 的列,按照列的规则进行过滤操作。

<code># 例如:查找列 value_1 < value_2 的行记录 df.query('value_1 < value_2')</code>
图片[2]-10 个提升效率的 Pandas 函数,你用过吗?-山海云端论坛

2. Insert

Insert 用于在 DataFrame 的指定位置中插入新的数据列,可灵活控制插入位置。

<code># 例如:在第三列的位置插入新列 df.insert(2, 'new_col', new_col)</code>
图片[3]-10 个提升效率的 Pandas 函数,你用过吗?-山海云端论坛

3. Cumsum

Cumsum 是 Pandas 的累加函数,用来求列的累加值,可结合 groupby 实现分组累加。

<code># 例如:计算每个组内 value_2 的累加值 df['cumsum_2'] = df[['value_2','group']].groupby('group').cumsum()</code>

4. Sample

Sample 用于从 DataFrame 中随机选取若干行或列。

<code># 例如:随机抽取 5 行数据 sample1 = df.sample(n=5)</code>

5. Where

Where 用来根据条件替换行或列中的值,是一种掩码操作。

<code># 例如:将列 value_1 中小于 5 的值替换为 0 df['value_1'].where(df['value_1'] > 5 , 0)</code>

6. Isin

Isin 是一种过滤方法,用于查看某列中是否包含某个字符串。

<code># 例如:筛选 year 列值在指定列表中的行 years = ['2010','2014','2017'] df[df.year.isin(years)]</code>

7. Loc 和 iloc

Loc 和 iloc 用于选择行和列,其中 loc 是按标签选择,iloc 是按索引位置选择。

<code># 例如:使用 iloc 选择指定行和列的数据 df.iloc[:3,:2]</code>

8. Pct_change

Pct_change 是一个统计函数,用于计算相邻元素的百分比变化。

<code># 例如:计算 value_1 列的增长率 df.value_1.pct_change()</code>

9. Rank

Rank 是一个排名函数,按照规则给原序列的值进行排名,返回排名后的名次。

<code># 例如:对 value_1 列进行排名 df['rank_1'] = df['value_1'].rank()</code>

10. Melt

Melt 用于将宽表变成窄表,是 pivot 透视逆转操作函数,重构 DataFrame。

<code># 例如:将宽表变成窄表,city 列变成变量列 pd.melt(df1, id_vars=['city'])</code>

这些函数能够大大提升数据处理的效率,让你更加轻松地进行数据分析和处理。

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容