当前位置：首页 > news >正文

机器学习概述

news 2025/3/18 19:22:47

前言

随着科技的不断更新发展，人工智能与社会生活的关系也越来越紧密。那么，人工智能和机器学习有什么关系，什么是机器学习，机器学习的模型算法有哪些，如何进行机器学习？本系列文章将从上述几个问题展开。

概述

机器学习是人工智能的一个子领域，专门研究计算机如何模拟或实现人类智能行为，以获取新的知识或技能，并不断重组完善已有知识结构的学科；从实践意义来讲，机器学习在大数据支撑下，通过各种算法让机器对数据进行深层次的统计分析，让人工智能系统获得归纳推理和决策能力，帮助人类智能延伸；

算法: 机器学习算法是指导计算机如何学习的规则和统计技术。不同的算法适用于不同的任务和数据类型。
模型: 机器学习模型是算法学习的输出。它代表了数据中的模式和关系，并用于进行预测或决策。

机器学习离不开数据、算法和模型，通常包含数据预处理、模型学习、模型评估、样本预测几个步骤。

数据预处理：从原始raw数据，经过（特征处理+幅度缩放、特征选择、维度约减、采样），输出测试集和训练集；
模型学习：根据实际场景模型选择、交叉验证、结果评估、超参选择；
模型评估：模型学习完成后，对模型性进行评估；
样本预测：新的输入数据预测

数据预处理系列文章包括：

《机器学习特征分析》
《机器学习特征构建与特征筛选》
《机器学习EDA探查工具Pandas profiling》

模型算法介绍篇：

《机器学习模型算法》

模型评估介绍篇：

《机器学习模型评估》

机器学习高阶autoML:

《机器学习自动化建模AutoML》

机器学习实战篇：

《机器学习Airbnb数据的民宿房价预测模型》

机器学习工具篇：

待补充

模型训练套路

1. 理解问题类型

回归：预测一个连续值，如房价、温度等。可以尝试线性回归、决策树回归、支持向量回归等。
分类：预测离散的类别标签，如垃圾邮件识别、疾病诊断等。常用的有逻辑回归、SVM、随机森林、K-近邻等。
聚类：无监督学习，将数据分组为相似的对象集群，如客户细分。考虑使用K-means、DBSCAN、层次聚类等。
降维：减少数据的维度，同时保持数据的重要特性，如PCA、t-SNE等。
关联规则学习：发现变量之间的有趣关系，如市场篮子分析中的“啤酒与尿布”。可以使用Apriori、Eclat等算法。

2. 了解数据特性

数据规模：大规模数据可能需要更高效的算法，如随机森林相对于单一决策树。
特征数量：高维数据可能需要特征选择或降维技术，以及能够处理高维输入的模型，如SVM带核函数。
特征类型：数值型、类别型特征对模型的选择有影响。一些模型直接处理类别特征效果更好，而其他模型可能需要编码转换。
缺失值：某些算法对缺失值敏感，可能需要预处理。树基模型能较好地处理缺失值。

3. 考虑计算资源

时间复杂度：如果你的时间预算有限，可能需要选择训练速度快的算法，如线性模型。
内存消耗：对于大内存需求的模型（如核方法SVM），在资源有限时可能需要调整参数或选择其他模型。

4. 评估与调优

交叉验证：使用交叉验证来评估模型的泛化能力，避免过拟合。
网格搜索：通过网格搜索或随机搜索来调整超参数，优化模型性能。
模型比较：不要只依赖单一模型，尝试多种模型并比较它们的表现，使用如AUC-ROC、准确率、F1分数等指标。

查看全文

http://www.mrgr.cn/news/45435.html

[Python] 模块导入与字典 : 从入门到进阶

中航资本：炒股可以看什么指标？炒股四大技术指标？

Css flex布局下两端对齐与居中对齐

1007 Maximum Subsequence Sum——PAT甲级(dp)

简历修订与求职经历 - Chap02.

使用AutoDL安装Mamba官方代码

怎么在抖音直播间录屏？主播会知道吗？录屏软件推荐

【大模型报告】中国信通院2024大模型典型示范应用案例集+上交动手学大模型教程来袭！

C++（运算符重载）

【读书笔记·VLSI电路设计方法解密】问题3：在最新工艺下，数百万-千万门级电路设计的挑战

CSS 图标和文本对齐

28 Vue3之搭建公司级项目规范

数字王国里的虚拟人——技术、商业与法律解读

C++多态常见问题

`cd` 后面没有指定任何目录，表示回到用户的主目录（`$HOME`）

JavaEE学习一条龙服务————概述

零基础学习 Python 爬虫技术的大纲

2024 Spring 面试题大全：你的成功之路指南

「完美收官」科东软件2024上海国际工博会精彩回顾：鸿道操作系统赋能新型工业化

【华为HCIP实战课程八】OSPF网络类型及报文类型详解，网络工程师

前言

概述

模型训练套路

相关文章：