1 数据可视化简介
1.1 数据可视化概念
- 数据可视化是指直观展现数据,它是数据处理过程的一部分。
- 把数值绘制出来更方便比较。借助数据可视化,能更直观地理解数据,这是直接查看数据表做不到的
- 数据可视化有助于揭示数据中隐藏的模式,数据分析时可以利用这些模式选择模型
1.2 数据可视化常用库和各自特点
1.2.1 Matplotlib(功能强大,代码相对复杂)
- Matplotlib是Python编程语言的开源绘图库。它是Python可视化软件包中最突出的,使用最广泛的绘图工具。
- Matplotlib在执行各种任务方面非常高效。可以将可视化文件导出为所有常见格式(PDF,SVG,JPG,PNG,BMP和GIF)。
- Matplotlib可以创建流行的可视化类型-折线图,散点图,直方图,条形图/柱状图,误差图,饼图,箱形图以及更多其他类型的图,还支持3D绘图。
- 许多Python库都是基于Matplotlib构建的,Pandas和Seaborn是在Matplotlib上构建的
- Matplotlib项目由John Hunter于2002年启动。Matplotlib最初是在神经生物学的博士后研究期间开始可视化癫痫患者的脑电图(ECoG)数据。
1.2.2 Pandas (使用简单,功能稍弱)
- Pandas的绘图功能基于Matplotlib,是对Matplotlib的二次封装
- Matplotlib绘图时,代码相对复杂,使用Pandas绘制基本图表相对比较简单,更加方便
- Pandas中常用的数据结构 series 和 dataframe 都有plot()方法,用于绘图
1.2.3 Seaborn (推荐使用)
- Seaborn是基于Matplotlib的图形可视化python开源库
- Seaborn是在Matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易
- Seaborn的API设计偏向探索和理解数据
1.2.4 echarts 和 pyecharts (追求可视化效果,推荐使用)
- ECharts,是百度开源,使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖矢量图形库 ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表
- pyecharts 是一个用Python生成 Echarts 图表的类库。
小结
- 数据分析的过程中可视化,推荐使用 Seaborn,理由代码简单,效果不错
- 追求展示效果,可以使用pyecharts,效果炫酷