博客
关于我
Pandas数据可视化怎么做?用实战案例告诉你!
阅读量:793 次
发布时间:2023-02-26

本文共 2232 字,大约阅读时间需要 7 分钟。

数据可视化是数据分析中不可或缺的一部分,它能够通过直观的图表帮助我们快速发现数据中的规律和变量之间的关系。对于数据科学家来说,学习如何高效地进行数据可视化是掌握核心技能的重要环节。

在数据可视化领域,常用的库包括 matplotlibseabornpyecharts。其中,matplotlib 是一个底层库,API丰富但学习门槛较高;seaborn 则基于 matplotlib 提供了更高层次的功能,能够满足大多数可视化需求,但对于特殊需求仍需学习 matplotlib。pyecharts 则具有良好的 Web 统一性,能够实现动态效果的可视化。

在数据处理方面,pandas 是数据科学家不可或缺的工具。它支持数据的采集、读取、清洗和预处理。通过 pandas,我们可以轻松地进行数据清洗操作,例如使用 applymap 来处理数据。与此同时,pandasmatplotlib 的结合也为数据可视化提供了强大的功能。

为了实现可视化效果,我们需要安装以下库:

pip3 install numpy
pip3 install pandas
pip3 install matplotlib

接下来,我们可以使用伦敦天气数据进行演示。首先导入必要的库并读取数据:

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
# 读取数据
df = pd.read_csv('data/london2018.csv')

最简单的折线图

使用 df.plot 创建折线图时,可以选择以下方式:

df.plot(x='Month', y='Tmax')  # 默认使用线型
df.plot(x='Month', y='Tmax', kind='line') # 强制使用线型
df.plot.line(x='Month', y='Tmax') # 使用 line kinase

生成的折线图可以添加格线:

df.plot(x='Month', y='Tmax', kind='line', grid=True)

绘制多变量图表

如果需要同时展示多个数据系列,可以使用以下方式:

df.plot(x='Month', y=['Tmax', 'Tmin'])

同样,条形图可以通过以下方式绘制:

df.plot(x='Month', y='Rain', kind='bar')

要绘制水平条形图,可以使用 kind='barh'

df.plot(x='Month', y='Rain', kind='barh')

散点图和饼图

散点图可以通过以下方式绘制:

df.plot(kind='scatter', x='Month', y='Sun')

饼图则可以通过以下方式绘制:

df.plot(kind='pie', y='Sun')

如果需要隐藏图例,可以通过 legend=False 参数实现:

df.plot(kind='pie', y='Sun', legend=False)

更大的数据集

如果使用更大的数据集(如62年的天气数据),可以通过以下方式读取数据:

df2 = pd.read_csv('data/londonweather.csv')

查看数据特征:

df2.Rain.describe()

绘制箱型图:

df2.plot.box(y='Rain')

绘制直方图:

df2.plot.hist(y='Rain')

通过设置 bins 参数可以自定义刻度:

df2.plot.hist(y='Rain', bins=[0,25,50,75,100,125,150,175,200])

多图并存

为了展示多个变量,可以使用子图布局:

df.plot(kind='line', y=['Tmax', 'Tmin', 'Rain', 'Sun'], subplots=True, layout=(2, 2), figsize=(20, 10))

同样,可以绘制条形图的子图:

df.plot(kind='bar', y=['Tmax', 'Tmin', 'Rain', 'Sun'], subplots=True, layout=(2, 2), figsize=(20, 10))

添加标题和保存

给图表添加标题可以通过 title 参数实现:

df.plot(kind='bar', y=['Tmax', 'Tmin'], subplots=True, layout=(1, 2), figsize=(20, 5), title='伦敦天气')

将图表保存为图片文件:

df.plot(kind='pie', y='Rain', legend=False, figsize=(10, 5), title='伦敦天气饼图')
plt.savefig('img/pie.png')

df.plot参数说明

df.plot 函数接受多个参数,例如:

  • x:横坐标变量
  • y:纵坐标变量
  • kind:图表类型(如 'line', 'bar', 'pie' 等)
  • figsize:图表尺寸
  • title:图表标题
  • grid:是否显示网格线
  • legend:是否显示图例
  • style:图表风格

通过 help(pd.DataFrame.plot) 可查看详细参数说明。

转载地址:http://bvvfk.baihongyu.com/

你可能感兴趣的文章
OpenMCU(三):STM32F103 FreeRTOS移植
查看>>
OpenMCU(二):GD32E23xx FreeRTOS移植
查看>>
OpenMMLab | S4模型详解:应对长序列建模的有效方法
查看>>
OpenMMLab | 【全网首发】Llama 3 微调项目实践与教程(XTuner 版)
查看>>
OpenMMLab | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
查看>>
OpenMV入门教程(非常详细)从零基础入门到精通,看完这一篇就够了
查看>>
OpenObserve云原生可观测平台本地Docker部署与远程访问实战教程
查看>>
OpenPPL PPQ量化(4):计算图的切分和调度 源码剖析
查看>>
OpenPPL PPQ量化(5):执行引擎 源码剖析
查看>>
openpyxl 模块的使用
查看>>
Openresty框架入门详解
查看>>
OpenResty(1):openresty介绍
查看>>
OpenResty(2):OpenResty开发环境搭建
查看>>
openshift搭建Istio企业级实战
查看>>
Openstack 之 网络设置静态IP地址
查看>>
OpenStack 综合服务详解
查看>>
OpenStack 网络服务Neutron详解
查看>>
Openstack(两控制节点+四计算节点)-1
查看>>
openstack--memecache
查看>>
openstack-keystone安装权限报错问题
查看>>