【Kaggle | Pandas】练习5:数据类型和缺失值
文章目录
- 1. 获取列数据类型.dtype / .dypes
- 2. 转换数据类型.astype()
- 3. 获取数据为空的列 .isnull()
- 4. 将缺少值替换并且排序.fillna(),.sort_values()
1. 获取列数据类型.dtype / .dypes
数据集中points列的数据类型是什么?
# Your code here
dtype = reviews.points.dtype
2. 转换数据类型.astype()
从points列中的条目创建一个系列,但将条目转换为字符串。提示:字符串在本机 Python 中是str
point_strings = reviews.points.astype(str)
3. 获取数据为空的列 .isnull()
有时价格列为空。数据集中有多少评论缺少价格?
missing_price_reviews = reviews[reviews.price.isnull()]
n_missing_prices = len(missing_price_reviews)
# Cute alternative solution: if we sum a boolean series, True is treated as 1 and False as 0
n_missing_prices = reviews.price.isnull().sum()
# or equivalently:
n_missing_prices = pd.isnull(reviews.price).sum()
4. 将缺少值替换并且排序.fillna(),.sort_values()
最常见的葡萄酒产区有哪些?创建一个系列,计算每个值在region_1字段中出现的次数。该字段经常缺少数据,因此将缺少的值替换为Unknown 。按降序排列。你的输出应该是这样的:
reviews_per_region = reviews.region_1.fillna('Unknown').value_counts().sort_values(ascending = False)