当前位置: 首页 > news >正文

yjs机器学习数据操作01——数据的获取、可视化

数据的获取

1.库与模块:

import sklearnfrom sklearn import datasets

2.数据集获取的API及解释

对于sklearn的数据获取,主要分为两大部分,分别是“小数据集的获取——load_xxx”和“大数据集的获取fetch_xxx”

a.datasets.load_xxx():

load_xxx:这些数据集通常加载到内存中,适合快速实验和模型验证

常见的有   

  • load_iris():加载经典的鸢尾花(Iris)数据集。
  • load_digits():加载手写数字数据集。
  • load_wine():加载葡萄酒分类数据集。
  • load_breast_cancer():加载乳腺癌分类数据集。
  • load_diabetes():加载糖尿病回归数据集。
  • load_linnerud():加载 Linnerud 数据集(多输出回归)。

b.datasets.fetch_xxx()

fetch_xxx:从网络下载数据集,适用于较大规模的真实世界数据集

常见的有:

  • fetch_20newsgroups():加载20类新闻组数据集,用于文本分类任务。
  • fetch_olivetti_faces():加载 Olivetti 人脸数据集,用于图像处理任务。
  • fetch_lfw_people():加载 LFW(Labelled Faces in the Wild)人脸识别数据集。
  • fetch_lfw_pairs():加载 LFW 人脸对数据集,用于人脸匹配。
  • fetch_covtype():加载 Covertype 数据集,用于分类问题。
  • fetch_rcv1():加载 RCV1(Reuters Corpus Volume I)数据集

3.数据集的属性

import sklearn
from sklearn import datasets
data=datasets.load_iris()"""1.数据集的具体数据/本质上也是特征值:"""
data["data"]    """2.数据集的特征名:"""
data.feature_names"""3.数据集的目标名称/标签名称"""
data.target_names"""4.数据集的目标值/标签值"""
data.target"""5.数据集的总体描述"""
data.DESCR

数据的可视化

1.库与模块:

import seaborn as sns
#seaborn是对matplotlib的更高级api的封装

2.可视化的API及解释——lmplot

sns.lmplot(x=   ,   y=   ,    data=    ,hue=   ,  fit_reg=True/False....)

参数说明:

x/y=...     : 是指定画图时的x坐标是啥,y是啥,这里不是将其命名,而是指出以什么参数为x、y轴   ;一般是某一个“属性”,即特征

························································································································

data=       :这里指定数据,并且数据一定要是DataFrame结构

                     这里就涉及到将load_或者fetch获得的数据结构进行变化:

Data_load=pd.DataFrame(data["data"],columns=data.feature_names)

··························································································································

hue=        :这里是指按照什么进行分类,

data【“data”】获取的数据一般是这样的:

一般我们把它再加一列,就是将每个样本的目标值,即标签加入进去

Data_load["target"]=data.target

所以这里的hue一般这样写:

hue=Data_load.target或者["target"]

··························································································································

fit_reg=T/F:是否进行线性拟合



整体代码:

# 将数据用seaborn库进行可视化
data_1=pd.DataFrame(data=dataSet1["data"],columns=dataSet1.feature_names)
data_1["target"]=dataSet1.target
print(data_1)
print(data_1.columns[0])
sns.lmplot(x=data_1.columns[0], y=data_1.columns[1], data=data_1, hue="target")
plt.xlabel("cols1")
plt.ylabel("cols2")
plt.title("鸢尾花")
plt.show()

结果:

注意图的相关显示的属性,如x坐标名称,y坐标名称,图的题目等是同matplotlib那个一样,都是 “plt.xxx”

最后的展示也是“plt.show()”

整体代码:

import matplotlib.pyplot as plt
import pandas as pd
import sklearn
import seaborn as sns
from sklearn import datasets
import numpy as np
plt.rcParams['font.family'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = FalsedataSet1 = datasets.load_iris()
print("鸢尾花数据集如下:")
print(dataSet1)
print("鸢尾花的属性:")
print("特征数据数组:")
print(dataSet1["data"])
print("标签值:")
print(dataSet1.target)
print("标签名:")
print(dataSet1.target_names)
print("特征名:")
print(dataSet1.feature_names)
print("数据描述:")
print(dataSet1.DESCR)# 将数据用seaborn库进行可视化
data_1=pd.DataFrame(data=dataSet1["data"],columns=dataSet1.feature_names)
data_1["target"]=dataSet1.target
print(data_1)
print(data_1.columns[0])
sns.lmplot(x=data_1.columns[0], y=data_1.columns[1], data=data_1, hue="target")
plt.xlabel("cols1")
plt.ylabel("cols2")
plt.title("鸢尾花")
plt.show()

结果:(截取部分片段)


http://www.mrgr.cn/news/54476.html

相关文章:

  • nbsaas vue3管理后台框架
  • PHP中的ReflectionClass常见用法
  • IP池与代理池的区别
  • smbms(2)
  • JS事件和DOM
  • 海思hi3536c配置内核支持USB摄像头
  • 民宿预订新纪元:SpringBoot实现的在线平台
  • 昇思MindSpore进阶教程--AOE调优工具
  • 大幅降低人工核验遗漏的概率,降低出错风险的智慧能源开源了
  • QT的事件
  • SpringBoot技术在汽车票预订领域的应用
  • 状态空间表达式的求解与转化【现代控制理论】
  • 第6天:Intent和页面导航
  • 管家婆财贸ERP BB007.销售订单明细批量采购
  • 大数据治理--技术平台与工具
  • 深入探索 APKTool:Android 应用的反编译与重打包工具
  • 2024软考网络工程师笔记 - 第12章.网络规划设计
  • 【软件运行类文档】项目试运行方案,试运行计划书(word原件)
  • Windows环境下安装jdk8,含配置环境变量全过程
  • 基于MATLAB车牌识别系统设计
  • mysql连接池简单原理介绍+高并发场景下的设计
  • 发动机拆解可视化:精细化呈现机械内部结构
  • 安装 Git
  • 二层交换机的工作原理与局域网设备通信详解
  • 瑞云快图云渲染怎么样?渲染一张图贵吗?
  • 图的最小生成树算法--普里姆(Prim)算法和克鲁斯克尔(Kruskal)算法