当前位置: 首页 > news >正文

pandas_profiling :教你一行代码生成数据分析报告

分析报告全貌

动图封面

什么是探索性数据分析

熟悉pandas的童鞋估计都知道pandas的describe()和info()函数,用来查看数据的整体情况,比如平均值、标准差之类,就是所谓的探索性数据分析-EDA。

pandas_profiling简介

如果你想更方便快捷地了解数据的全貌,泣血推荐一个python库:pandas_profiling,这个库只需要一行代码就可以生成数据EDA报告。

pandas_profiling基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。

对于数据集的每一列,pandas_profiling会提供以下统计信息:

1、概要:数据类型,唯一值,缺失值,内存大小
2、分位数统计:最小值、最大值、中位数、Q1、Q3、最大值,值域,四分位

3、描述性统计:均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数

4、最频繁出现的值,直方图/柱状图

5、相关性分析可视化:突出强相关的变量,Spearman, Pearson矩阵相关性色阶图

并且这个报告可以导出为HTML,非常方便查看。

pandas_profiling安装

安装pandas_profiling可以使用pip、conda或者下载文件安装,非常方便。

我这里使用pip方式,在命令行输入:

pip install pandas-profiling

本文在Jupyter notebook中进行代码实验

pandas_profiling使用方法

1、加载数据集

我这里用经典的泰坦尼克数据集:

# 导入相关库
import seaborn as sns
import pandas as pd
import pandas_profiling as pp
import matplotlib.pyplot as plt
# 加载泰坦尼克数据集
data = sns.load_dataset('titanic')
data.head()

输出:

2、使用pandas_profiling生成数据探索报告

report = pp.ProfileReport(data)
report

输出报告:

3、导出为html文件

report.to_file('report.html')

总结

pandas_profiling可以用一行代码生成详细的数据分析报告,与pandas深度结合,非常适合前期的数据探索阶段,以及结果数据报告批量化生产。对不太熟悉python数据分析的新手来说,这是一个非常好用的工具。


http://www.mrgr.cn/news/57635.html

相关文章:

  • 使用注解@ExcelIgnoreUnannotated实现了在导出 Excel 时忽略没有被标注的字段
  • 深入探索路由算法的核心原理与应用
  • 重生之“我打数据结构,真的假的?”--1.单链表(无习题)
  • STM32通信协议-I2C
  • C# 标准绘图控件 chart 多 Y 值的编程应用
  • 机器视觉:9点标定的原理与实现
  • 【002】基于springboot的医护人员排班系统
  • SpringBoot poi-tl通过模板占位符生成word文件
  • 第一批用AI的设计师,已经彻底赚翻了!
  • 网站怎么做的?
  • 【语音转文本新体验】Windows部署Whisper Web结合内网穿透轻松远程转录——“cpolar内网穿透”
  • 【vue2.7.16系列】手把手教你搭建后台系统__selectIcon和svgIcon组件(12)
  • 1024节的由来?程序员节的由来?
  • Springboot网络安全培训平台-计算机毕业设计源码88959
  • R语言笔记(二):向量
  • 基础数据结构——队列(双端队列,优先级队列,阻塞队列)
  • 【MySQL】C语言连接MySQL数据库3——事务操作和错误处理API
  • C++中指针类型、引用类型、值类型
  • 面试必备:RabbitMQ与Kafka核心知识点总结
  • 使用 SpaCy 和 NLTK 进行文本处理与切片详解
  • 中酱集团:黑松露酱油,天然配方定义健康生活
  • 【golang】学习文档整理
  • 11 怎么给字符串字段加索引?
  • js 基础补充3
  • 【面试题】如果 Redis 遇到 Hash 冲突了该怎么处理?
  • 代码随想录-哈希表-快乐数