Python数据分析-数据预处理、统计与分析
一、获取数据
1、读取外部文件
二、数据理解和清洗
1、了解数据结构:行、列
print(data.shape)
2、了解列信息
print(data.columns)
3、了解数据类型:未来需要计算的需要转换成可计算的数据类型
print(data.dtypes)
4、汇总统计:
print(data.describe())
include='all'表示里边有空值
print(data.describe(include='all'))
5、缺失值处理 都是0没有缺失值
print(data.isnull().sum())
6、找重复数据 没有重复 有重复要去重
print(data.duplicated())
三、相关性探索:用户属性、产品属性、用户行为
1、用户属性:主要包括用户的基本信息,这些属性有助于我们了解目标用户群体,从而制定更精准的市场策略。
(1)数据收集
数据来源:用户注册信息、问卷调查、第三方数据服务等。
数据格式:CSV、Excel、数据库等
(2)数据预处理
导入数据:使用pandas库读取数据。
数据清洗:处理缺失值,异常值,重复值。
数据转换:将字符串类型的数据转换为数值类型(如将性别转换为0和1)
(3)数据分析
统计描述:使用describe()方法查看数据的统计信息。
可视化:使用matplotlib等库进行数据可视化。
2、产品属性:包括产品的价格、功能、质量、外观等。这些属性对于用户满意度和购买决策具有重要影响。
(1)数据收集
数据来源:产品数据库、用户评价、竞品分析等。
(2)数据预处理
导入数据:使用pandas库读取数据。
数据清洗:处理缺失值,异常值,重复值。
数据转换:将文本描述的产品属性转换为可量化的指标
(3)数据分析
统计描述:使用describe()方法查看数据的统计信息。
可视化:使用matplotlib等库进行数据可视化。
3、用户行为:包括用户的购买行为、浏览行为、搜索行为等。这些行为数据对于了解用户需求和优化产品功能具有重要意义。
(1)数据收集
数据来源:网站日志、APP日志、第三方行为数据服务等。
(2)数据预处理
导入数据:使用pandas库读取数据。
数据清洗:处理缺失值,异常值,重复值。
数据转换:将时间戳转换为日期格式,将用户行为编码为可分析的格式。
(3)数据分析
用户画像:根据用户行为数据构建用户画像。
行为分析:分析用户的购买转化率、浏览时长、搜索频率等。
可视化:使用matplotlib等库进行数据可视化。