当前位置: 首页 > news >正文

数据处理之数据规约

数据处理之数据规约

1. 数据规约概述

数据规约是数据处理中的重要方法,旨在让数据处理更简便、高效,以满足业务需求。当从数据仓库获取的数据量庞大时,直接在海量数据上进行分析和挖掘成本颇高。数据规约可得到数据集的归约表示,在减小数据规模的同时,尽可能保持原数据的完整性,使得在归约后的数据集上进行挖掘能获得与使用原数据集近乎相同的分析结果。

2. 经典数据规约策略
  • 属性规约:想办法减少分析时需考虑的变量或属性。常用方法如小波变换,它能将复杂数据简化到更小、更简单的空间;主成分分析利用降维思想,把多个指标压缩成几个重要且互不重复、能抓住大部分原始信息的指标;还有挑选属性子集,即去除不重要、重复、不相关或冗余的属性维度,找到最小属性集合,让数据分布与使用所有属性时的分布尽量相似。例如分析顾客是否愿意购买新的流行歌单时,可删掉电话号码、住址等无关信息,保留顾客分类、年龄、喜好的音乐类型等重要信息。
  • 数量规约:通过较小的数据集替代原始数据集来简化处理过程。其常用方法分为参数的和非参数的。
    • 参数方法:利用如回归模型、对数线性模型等数学模型拟合数据,只需存储模型的参数而非整个数据集,借助模型的概括能力实现数据压缩和表示。
    • 非参数方法:不依赖特定数学模型,例如使用直方图近似数据分布,通过聚类将数据分组并用簇的代表性数据点替代原始数据,或者运用抽样技术从原始数据集中选取部分数据作为代表,以及数据立方体聚集,它通过对数据进行多维度的汇总和聚合来减少数据量并保留关键信息。
    • 直方图:这是一种利用分箱法近似数据分布的数据规约方法,把数据分成不同区间(格子),格子宽度代表范围大小,高度显示该范围内的数据点数量,常用于统计数据的可视化,便于理解数据分布情况,还可根据等宽原则或等平原则来确定区间划分。
    • 聚类:将数据集的数据对象分组,使相似对象归为同一组,不相似对象分到不同组,分组结果称为簇或群。相似性通常基于距离度量(如欧几里得距离、曼哈顿距离等)来判定,距离越小相似度越高,距离越大差异性越大。聚类技术在市场细分、图像处理、社交网络等诸多领域都有重要作用,簇的直径和簇心距离是评估聚类质量的关键指标,常用的聚类算法包括基于划分(如 k means 算法)、基于层次、基于密度、基于网格和基于模型的方法等。
    • 抽样:通过从大型数据集提取小的随机样本子集来代表整个数据集,能显著降低处理和分析的计算成本,同时保留数据代表性。常见抽样方法有无放回简单随机抽样(确保样本独立性和随机性,每个数据点只能被选一次)、有放回简单随机抽样(所选数据点抽样后会放回,可多次选择,适用于需重复抽样情况)、簇抽样(适合数据集自然分组情况,将数据集划分成簇后随机选簇抽样)以及分层抽样(适用于数据集有明显分层特征情况,将数据集划分为不同层后从各层随机抽取样本)。

二、数据处理之数据变换

1. 数据变换的意义

数据变换是数据挖掘过程中的关键环节,核心任务是把各种原始数据转化为适合分析和挖掘的格式,以提高挖掘的准确性,帮助提取更有价值的信息。

2. 常见的数据变换策略
  • 光滑数据:犹如去除画布上的杂点般去掉数据中的噪声,常用技术包括分箱、回归和聚类等,使数据更纯净。
  • 数据聚类:对数据进行汇总或聚集,比如将日销售数据聚合计算出月或年销售总量,有助于发现数据模式,还能构建数据立方体以从多维度观察数据。
  • 属性构造(特征构造):依据已有的属性构造出新属性并添加到属性集中,能加速挖掘过程,更快找到有价值信息。
  • 数据规范化:类似调整乐器音调,按比例缩放数据的属性,使其落入特定区间,避免某些属性对结果产生过大影响,常见算法有最小最大规范化(将数据最小值拉伸到 0,最大值压缩到 1,使中间数值线性映射到该区间)、零均值规范化(将数据均值变成 0,并根据标准差缩放,确保数据分布均匀,消除偏移,不受极端值干扰)、小数定规范化(将所有数据值转换为相对于总和的比例,直观体现各部分对整体的贡献)。
  • 数据离散化:把原始值替换为区间标签或概念标签,让数据更简洁明了,便于理解和分析。
  • 数据泛化:进行概念分层,用高层概念替换低层或原始数据,像把街道泛化为城市、国家等,许多属性的概念分层可在数据库模式中自动定义。

查看更多


http://www.mrgr.cn/news/81697.html

相关文章:

  • Centos8安装图形化界面
  • TouchGFX软件介绍 基本控件,交互设计与仿真(1)
  • 低代码开源项目Joget的研究——Joget7社区版安装部署
  • cesium入门学习三
  • SpringBoot选择CGLIB作为默认动态代理
  • 前端最新Vue2+Vue3基础入门到实战项目全套教程,自学前端vue就选黑马程序员,一套全通关!
  • 文本数据处理
  • 了解智能运维
  • #渗透测试#漏洞挖掘#红蓝攻防#漏洞挖掘#未授权漏洞-Es未授权漏洞
  • leetcode 27. 移除元素
  • 【和春笋一起学C++】文本输入与读取
  • C# 修改项目类型 应用程序程序改类库
  • 【CSS in Depth 2 精译_094】16.2:CSS 变换在动效中的应用(下)——导航菜单的文本标签“飞入”特效与交错渲染效果的实现
  • CMake技术细节:解决未定义,提供参数
  • 走进人工智能体
  • 【Go】context标准库
  • SpringMVC学习(二)——RESTful API、拦截器、异常处理、数据类型转换
  • esp32学习:用虫洞ESP32S3-EYE开发板快速实现USB摄像头(UVC免驱)
  • 【HENU】河南大学计院2024 计算机网络 期末复习知识点
  • 中关村科金智能客服机器人如何解决客户个性化需求与标准化服务之间的矛盾?
  • Windows 11 中利用 WSL - Linux 虚拟环境部署 ChatTTS-Enhanced 项目教程
  • 动态规划<四> 回文串问题(含对应LeetcodeOJ题)
  • 动态规划<五> 子数组问题(含对应LeetcodeOJ题)
  • PaddleOCR训练自己的私有数据集(包括标注、制作数据集、训练及应用)
  • 学习笔记(C#基础书籍)-- C#高级应用
  • WEB UI 创建视图