当前位置: 首页 > news >正文

3.5MachineLearing1Chapter

通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息

1.在向搜索引擎提交信息的阶段,能够从提交文本中进行信息提取,进行语义分析。
2.在搜索引擎进行信息匹配的阶段,能够提高问题与各个信息的匹配程度。
3.在向用户展示搜索结果的阶段,能够根据用户对结果感兴趣的程度进行排序。

文档管理器:生成更精准的摘要。本质就是文档摘要的自动生成,涉及深度学习、神经网络、NLP
索引构建器:索引构建已很成熟,但我发现仍有学者将机器学习应用于这部分,主要是用机器学习算法代替标准哈希函数,但效果还不太好[3]。
索引管理器:暂无。
索引检索器:这里涉及查询与文本间的匹配,以及搜索结果的排序,也是直接面向用户的部分。
搜索引擎直接给出搜索的答案:这里用到神经网络,它可以通过分析大量数据从而完成特定的任务,如从相关网页中获取长句子和段落,然后提出有关问题答案的信息。
直接进行图片、视频(等多元数据)的搜索:图片的识别已经是常见的技术了,那直接从视频中提出信息呢?谷歌推出Video Intelligence API,不仅可以从视频中提取特定的信息,还能总结视频的脉络、记录视频中的场景,从而对视频进行准确的分类。
更精准的排序(也可成为「精准营销」的部分):如使用神经网络、决策树等为基础的网页排序算法:RankNet, LambdaRank 和LambdaMART。2015年,谷歌推出RankBrain,它可以选择最适合当前搜索类型的结果,相当于为每个搜索都提供个性化的算法组合。
对用户行为进行综合分析(如历史搜索数据、点击模式、身份信息等进行结构化信息整合):更多使用在电子商务的搜索系统中。这在电商网站中的使用,应该是很盛行的,但具体没有调研过。
对话式智能交互搜索:如Baidu的语音搜索、利用Siri进行搜索又或者是Google Assistant等。涉及自然语言处理、知识图谱及神经网络等内容。
对垃圾网站的筛选(模式识别):这部分可以用Outlier的检测来实现,尤其对以前的标题党,或者以前针对算法进行SEO的网站进行甄别。
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/weixin_43894455/article/details/126835511

版本空间是机器学习中的一个概念,它表示有可能的假设(hypotheses)组成的空间。在某个特定的学习任务中,假设是对输入数据进行预测或分类的函数。版本空间包含了所有与训练数据一致的假设,即能够完全正确分类训练数据的假设。

版本空间的大小取决于所使用的假设空间的复杂度一个复杂的假设空间会导致更大的版本空间,因为它包含了更多可能的假设。相反,一个简单的假设空间会导致更小的版本空间。

版本空间的概念与学习算法的目标相关。一些学习算法的目标是找到能够完全正确分类训练数据的唯一假设,这种情况下版本空间的大小为1。而其他学习算法可能允许版本空间包含多个假设,目标是找到最优的假设,即在测试数据上具有最好泛化性能的假设。

版本空间的概念在概率论和统计学中也有类似的概念,比如置信集合和置信区间,用于表示对参数或模型的不确定性范围。

  • 学习过程:在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配 fit”的假设,
  • 假设空间:能将训练集中的样本判断为正确的假设的集合
  • 版本空间 version space:一个与训练集一致的“假设集合”

①写出假设空间:先列出所有可能的样本点(即特征向量)(即每个属性都取到所有的属性值)

②对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除

当涉及到P和NP问题时,可以提供以下几个例子来说明不同类型的问题。

1. P问题的例子:
   - 矩阵乘法:给定两个矩阵,求它们的乘积。这个问题可以在多项式时间内解决。

2. NP问题的例子:
   - 旅行商问题(Traveling Salesman Problem):给定一系列城市和它们之间的距离,找到访问每个城市一次且总距离最短的旅行路线。虽然验证一个给定的路线是否是最短路线可以在多项式时间内完成,但找到最短路线的解需要尝试所有可能的路线,需要指数级时间。
   - SAT问题(Satisfiability Problem):给定一个布尔表达式,判断是否存在一组布尔变量的赋值,使得该表达式为真。验证给定的赋值是否满足表达式可以在多项式时间内完成,但找到满足表达式的赋值需要穷举所有可能的赋值,需要指数级时间。

这些例子表明了P问题和NP问题之间的差异。P问题可以在多项式时间内解决,而NP问题只能在多项式时间内验证解。对于NP问题,尽管找到解可能很困难,但一旦有了解,可以在多项式时间内进行验证。

查准率就是说就是说拿出来的西瓜里正确的西瓜的数量,

是查全率相对于查准率的重要性,大于1的话就是查全率更重要


http://www.mrgr.cn/news/74725.html

相关文章:

  • CDA LEVEL 2考试大纲
  • 【LeetCode】【算法】11. 盛最多水的容器
  • 使用HAMi 进行gpu虚拟化
  • 【计算机网络】TCP网络程序
  • 递归探秘:从斐波那契数列到迷宫求解
  • SpringCloud篇(服务提供者/消费者)(持续更新迭代)
  • 威联通Docker Compose搭建NAS媒体库资源工具NAS Tools
  • 基于51单片机的高压锅控制系统proteus仿真
  • 污水处理领域的可视化大屏,3D流程图绝对有很大用武之地。
  • PHP“well”运动健身APP 87702-计算机毕业设计项目选题推荐(附源码)
  • DAY112代码审计PHP开发框架POP链利用Yii反序列化POP利用链
  • NocoBase 本周更新汇总:提升工作流易用性
  • C/C++精品项目之图床共享云存储(3):网络缓冲区类和main
  • 「媒体邀约」科技类企业如何利用媒体专访提升品牌知名度
  • Vuex vs Pinia:新一代Vue状态管理方案对比
  • IDEA2024:右下角显示内存
  • 苹果APNs消息推送
  • HO-PEG-MACA中PEG的修饰使其提高了稳定性,有助于其在各种溶剂中保持稳定的性能。
  • ESP32-S3模组上跑通esp32-camera(16)
  • 基于51单片机的高压蒸汽灭菌自动控制器proteus仿真
  • 远程踏勘系统(源码+文档+部署+讲解)
  • 浅谈C#之多线程流式适配器
  • 返校宣讲活动总结记录
  • cesium特效扩散圆
  • springboot濒危野生植物信息管理系统-计算机毕业设计源码06463
  • 使用Python实现对接Hadoop集群(通过Hive)并提供API接口