【Pandas 教程系列】- Pandas 常用函数

管理员

Rank: 9 Rank: 9 Rank: 9

UID: 2
积分: 2948020
威望: 1424047 布
龙e币: 1523973 刀
在线时间: 13794 小时
注册时间: 2009-12-3
最后登录: 2025-5-1

Medal No.1

1^# 跳转到 » 倒序看帖

打印

字体大小: tT

龙听发表于 2024-3-6 13:49 | 只看该作者

【Pandas 教程系列】- Pandas 常用函数

下列出了 Pandas 常用的一些函数及使用实例：

读取数据

实例

import pandas as pd
# 从 CSV 文件中读取数据
df = pd.read_csv('data.csv')
# 从 Excel 文件中读取数据
df = pd.read_excel('data.xlsx')
# 从 SQL 数据库中读取数据
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)
# 从 JSON 字符串中读取数据
json_string = '{"name": "John", "age": 30, "city": "New York"}'
df = pd.read_json(json_string)
# 从 HTML 页面中读取数据
url = 'https://www.runoob.com'
dfs = pd.read_html(url)
df = dfs[0] # 选择第一个数据框

复制代码

查看数据

实例

# 显示前五行数据
df.head()
# 显示后五行数据
df.tail()
# 显示数据信息
df.info()
# 显示基本统计信息
df.describe()
# 显示数据的行数和列数
df.shape

复制代码

实例

import pandas as pd
data = [
{"name": "Google", "likes": 25, "url": "https://www.google.com"},
{"name": "Runoob", "likes": 30, "url": "https://www.runoob.com"},
{"name": "Taobao", "likes": 35, "url": "https://www.taobao.com"}
]
df = pd.DataFrame(data)
# 显示前两行数据
print(df.head(2))
# 显示前最后一行数据
print(df.tail(1))

复制代码

以上实例输出结果为：

name likes url
0 Google 25 https://www.google.com
1 Runoob 30 https://www.runoob.com
name likes url
2 Taobao 35 https://www.taobao.com

复制代码

数据清洗

实例

# 删除包含缺失值的行或列
df.dropna()
# 将缺失值替换为指定的值
df.fillna(0)
# 将指定值替换为新值
df.replace('old_value', 'new_value')
# 检查是否有重复的数据
df.duplicated()
# 删除重复的数据
df.drop_duplicates()

复制代码

数据选择和切片

实例

# 选择指定的列
df['column_name']
# 通过标签选择数据
df.loc[row_index, column_name]
# 通过位置选择数据
df.iloc[row_index, column_index]
# 通过标签或位置选择数据
df.ix[row_index, column_name]
# 选择指定的列
df.filter(items=['column_name1', 'column_name2'])
# 选择列名匹配正则表达式的列
df.filter(regex='regex')
# 随机选择 n 行数据
df.sample(n=5)

复制代码

数据排序

实例

# 按照指定列的值排序
df.sort_values('column_name')
# 按照多个列的值排序
df.sort_values(['column_name1', 'column_name2'], ascending=[True, False])
# 按照索引排序
df.sort_index()

复制代码

数据分组和聚合

实例

# 按照指定列进行分组
df.groupby('column_name')
# 对分组后的数据进行聚合操作
df.aggregate('function_name')
# 生成透视表
df.pivot_table(values='value', index='index_column', columns='column_name', aggfunc='function_name')

复制代码

数据合并

实例

# 将多个数据框按照行或列进行合并
df = pd.concat([df1, df2])
# 按照指定列将两个数据框进行合并
df = pd.merge(df1, df2, on='column_name')

复制代码

实例

假设我们有如下的 JSON 数据，数据保存到 data.json 文件：

data.json 文件

[
{
"name": "Alice",
"age": 25,
"gender": "female",
"score": 80
},
{
"name": "Bob",
"age": null,
"gender": "male",
"score": 90
},
{
"name": "Charlie",
"age": 30,
"gender": "male",
"score": null
},
{
"name": "David",
"age": 35,
"gender": "male",
"score": 70
}
]

复制代码

我们可以使用 Pandas 读取 JSON 数据，并进行数据清洗和处理、数据选择和过滤、数据统计和描述等操作，具体如下：

实例

import pandas as pd
# 读取 JSON 数据
df = pd.read_json('data.json')
# 删除缺失值
df = df.dropna()
# 用指定的值填充缺失值
df = df.fillna({'age': 0, 'score': 0})
# 重命名列名
df = df.rename(columns={'name': '姓名', 'age': '年龄', 'gender': '性别', 'score': '成绩'})
# 按成绩排序
df = df.sort_values(by='成绩', ascending=False)
# 按性别分组并计算平均年龄和成绩
grouped = df.groupby('性别').agg({'年龄': 'mean', '成绩': 'mean'})
# 选择成绩大于等于90的行，并只保留姓名和成绩两列
df = df.loc[df['成绩'] >= 90, ['姓名', '成绩']]
# 计算每列的基本统计信息
stats = df.describe()
# 计算每列的平均值
mean = df.mean()
# 计算每列的中位数
median = df.median()
# 计算每列的众数
mode = df.mode()
# 计算每列非缺失值的数量
count = df.count()

复制代码

出结果如下：

# df
姓名年龄性别成绩
1 Bob 0 male 90
# grouped
年龄成绩
性别
female 25.000000 80
male 27.500000 80
# stats
成绩
count 1.0
mean 90.0
std NaN
min 90.0
25% 90.0
50% 90.0
75% 90.0
max 90.0
# mean
成绩 90.0
dtype: float64
# median
成绩 90.0
dtype: float64
# mode
姓名成绩
0 Bob 90.0
# count
姓名 1
成绩 1
dtype: int64

复制代码

论坛官方微信、群（期货热点、量化探讨、开户与绑定实盘）

期货论坛 - 版权/免责声明   1.本站发布源码(包括函数、指标、策略等)均属开放源码，用意在于让使用者学习程序化语法撰写，使用者可以任意修改语法內容并调整参数。仅限用于个人学习使用，请勿转载、滥用，严禁私自连接实盘账户交易。
  2.本站发布资讯(包括文章、视频、历史记录、教材、评论、资讯、交易方案等)均系转载自网络主流媒体，内容仅为作者当日个人观点，本网转载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。本网不对该类信息或数据做任何保证。不对您构成任何投资建议，不能依靠信息而取代自身独立判断，不对因使用本篇文章所诉信息或观点等导致的损失承担任何责任。
  3.本站发布资源(包括书籍、杂志、文档、软件等)均从互联网搜索而来，仅供个人免费交流学习，不可用作商业用途，本站不对显示的内容承担任何责任。请在下载后24小时内删除。如果喜欢，请购买正版，谢谢合作！
  4.龙听期货论坛原创文章属本网版权作品，转载须注明来源“龙听期货论坛”，违者本网将保留追究其相关法律责任的权力。本论坛除发布原创文章外，亦致力于优秀财经文章的交流分享，部分文章推送时若未能及时与原作者取得联系并涉及版权问题时，请及时联系删除。联系方式：http://www.qhlt.cn/thread-262-1-1.html

如何访问权限为100/255贴子：/thread-37840-1-1.html；注册后仍无法回复：/thread-23-1-1.html；微信/QQ群：/thread-262-1-1.html；网盘链接失效解决办法：/thread-93307-1-1.html

返回列表

【Pandas 教程系列】- Pandas 常用函数

【Pandas 教程系列】- Pandas 常用函数

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]