Pandas 是 Python 中最主要的数据分析库之一,它提供了非常多的函数和方法,可以高效地处理并分析数据。这篇文章将会配合实例,讲解 10 个重要的 Pandas 函数。其中有一些很常用,相信你可能用到过。还有一些函数出现的频率没那么高,但它们同样是分析数据的得力帮手。
1. Query
Query 是 Pandas 的过滤查询函数,使用布尔表达式来查询 DataFrame 的列,按照列的规则进行过滤操作。
<code># 例如:查找列 value_1 < value_2 的行记录 df.query('value_1 < value_2')</code>
2. Insert
Insert 用于在 DataFrame 的指定位置中插入新的数据列,可灵活控制插入位置。
<code># 例如:在第三列的位置插入新列 df.insert(2, 'new_col', new_col)</code>
3. Cumsum
Cumsum 是 Pandas 的累加函数,用来求列的累加值,可结合 groupby 实现分组累加。
<code># 例如:计算每个组内 value_2 的累加值 df['cumsum_2'] = df[['value_2','group']].groupby('group').cumsum()</code>
4. Sample
Sample 用于从 DataFrame 中随机选取若干行或列。
<code># 例如:随机抽取 5 行数据 sample1 = df.sample(n=5)</code>
5. Where
Where 用来根据条件替换行或列中的值,是一种掩码操作。
<code># 例如:将列 value_1 中小于 5 的值替换为 0 df['value_1'].where(df['value_1'] > 5 , 0)</code>
6. Isin
Isin 是一种过滤方法,用于查看某列中是否包含某个字符串。
<code># 例如:筛选 year 列值在指定列表中的行 years = ['2010','2014','2017'] df[df.year.isin(years)]</code>
7. Loc 和 iloc
Loc 和 iloc 用于选择行和列,其中 loc 是按标签选择,iloc 是按索引位置选择。
<code># 例如:使用 iloc 选择指定行和列的数据 df.iloc[:3,:2]</code>
8. Pct_change
Pct_change 是一个统计函数,用于计算相邻元素的百分比变化。
<code># 例如:计算 value_1 列的增长率 df.value_1.pct_change()</code>
9. Rank
Rank 是一个排名函数,按照规则给原序列的值进行排名,返回排名后的名次。
<code># 例如:对 value_1 列进行排名 df['rank_1'] = df['value_1'].rank()</code>
10. Melt
Melt 用于将宽表变成窄表,是 pivot 透视逆转操作函数,重构 DataFrame。
<code># 例如:将宽表变成窄表,city 列变成变量列 pd.melt(df1, id_vars=['city'])</code>
这些函数能够大大提升数据处理的效率,让你更加轻松地进行数据分析和处理。
© 版权声明
THE END
暂无评论内容