今天,我将与大家分享数据分析领域最常用的十个 Python 库。
NumPy: NumPy 是科学计算的基础包,支持大型多维数组和矩阵。
<code>import numpy as np data = np.array([[1, 2, 3], [4, 5, 6]])</code>
Pandas: Pandas 是强大的数据操作和分析库,引入了 Series 和 DataFrame 数据结构。
<code>import pandas as pd df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 22]})</code>
Matplotlib: Matplotlib 是创建静态、动画和交互式可视化的多功能绘图库。
<code>import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [10, 12, 5, 8, 7] plt.plot(x, y)</code>
Seaborn: Seaborn 在 Matplotlib 基础上提供了高级界面,用于绘制有吸引力且信息丰富的统计图形。
<code>import seaborn as sns sns.scatterplot(x='Age', y='Income', data=df)</code>
Scikit-learn: Scikit-learn 是一个简单高效的机器学习库,提供分类、回归、聚类等工具。
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
y = np.array([5, 20, 14, 32, 22, 38])
model = LinearRegression()
model.fit(x, y)
print('斜率:', model.coef_)
print('截距:', model.intercept_)
# 使用模型进行预测
x_pred = np.array([60]).reshape((-1, 1))
y_pred = model.predict(x_pred)
print('预测值:', y_pred)
# 绘制数据点和回归线
plt.scatter(x, y, color='blue')
plt.plot(x, model.predict(x), color='red')
plt.show()
Statsmodels: Statsmodels 用于估计和测试统计模型,支持线性和非线性回归模型、时间序列分析等。
<code>import numpy as np import statsmodels.api as sm import matplotlib.pyplot as plt # 模型训练和预测代码</code>
SciPy: SciPy 是一个数学、科学和工程库,提供优化、集成、插值等功能。
<code>from scipy import optimize result = optimize.minimize(f, x0)</code>
Plotly: Plotly 是一个交互式图形库,允许在 Python 中创建动态、交互式可视化。
<code>import plotly.express as px fig = px.scatter(df, x='Height', y='Weight', color='Gender')</code>
BeautifulSoup: BeautifulSoup 用于从 HTML 和 XML 文件中提取数据,提供了简洁的解析树操作方法。
<code>from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser')</code>
NLTK: NLTK 用于处理自然语言数据,提供了易于使用的界面和多个语料库。
<code>import nltk from nltk.tokenize import word_tokenize nltk.download('punkt') words = word_tokenize(text)</code>
希望这些库能够为你的数据分析工作提供便利和灵感!
© 版权声明
THE END
暂无评论内容