3.5MachineLearing1Chapter
通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息
1.在向搜索引擎提交信息的阶段,能够从提交文本中进行信息提取,进行语义分析。
2.在搜索引擎进行信息匹配的阶段,能够提高问题与各个信息的匹配程度。
3.在向用户展示搜索结果的阶段,能够根据用户对结果感兴趣的程度进行排序。
文档管理器:生成更精准的摘要。本质就是文档摘要的自动生成,涉及深度学习、神经网络、NLP
索引构建器:索引构建已很成熟,但我发现仍有学者将机器学习应用于这部分,主要是用机器学习算法代替标准哈希函数,但效果还不太好[3]。
索引管理器:暂无。
索引检索器:这里涉及查询与文本间的匹配,以及搜索结果的排序,也是直接面向用户的部分。
搜索引擎直接给出搜索的答案:这里用到神经网络,它可以通过分析大量数据从而完成特定的任务,如从相关网页中获取长句子和段落,然后提出有关问题答案的信息。
直接进行图片、视频(等多元数据)的搜索:图片的识别已经是常见的技术了,那直接从视频中提出信息呢?谷歌推出Video Intelligence API,不仅可以从视频中提取特定的信息,还能总结视频的脉络、记录视频中的场景,从而对视频进行准确的分类。
更精准的排序(也可成为「精准营销」的部分):如使用神经网络、决策树等为基础的网页排序算法:RankNet, LambdaRank 和LambdaMART。2015年,谷歌推出RankBrain,它可以选择最适合当前搜索类型的结果,相当于为每个搜索都提供个性化的算法组合。
对用户行为进行综合分析(如历史搜索数据、点击模式、身份信息等进行结构化信息整合):更多使用在电子商务的搜索系统中。这在电商网站中的使用,应该是很盛行的,但具体没有调研过。
对话式智能交互搜索:如Baidu的语音搜索、利用Siri进行搜索又或者是Google Assistant等。涉及自然语言处理、知识图谱及神经网络等内容。
对垃圾网站的筛选(模式识别):这部分可以用Outlier的检测来实现,尤其对以前的标题党,或者以前针对算法进行SEO的网站进行甄别。
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/weixin_43894455/article/details/126835511
版本空间是机器学习中的一个概念,它表示所有可能的假设(hypotheses)组成的空间。在某个特定的学习任务中,假设是对输入数据进行预测或分类的函数。版本空间包含了所有与训练数据一致的假设,即能够完全正确分类训练数据的假设。
版本空间的大小取决于所使用的假设空间的复杂度。一个复杂的假设空间会导致更大的版本空间,因为它包含了更多可能的假设。相反,一个简单的假设空间会导致更小的版本空间。
版本空间的概念与学习算法的目标相关。一些学习算法的目标是找到能够完全正确分类训练数据的唯一假设,这种情况下版本空间的大小为1。而其他学习算法可能允许版本空间包含多个假设,目标是找到最优的假设,即在测试数据上具有最好泛化性能的假设。
版本空间的概念在概率论和统计学中也有类似的概念,比如置信集合和置信区间,用于表示对参数或模型的不确定性范围。
- 学习过程:在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配 fit”的假设,
- 假设空间:能将训练集中的样本判断为正确的假设的集合
- 版本空间 version space:一个与训练集一致的“假设集合”
①写出假设空间:先列出所有可能的样本点(即特征向量)(即每个属性都取到所有的属性值)
②对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除
当涉及到P和NP问题时,可以提供以下几个例子来说明不同类型的问题。
1. P问题的例子:
- 矩阵乘法:给定两个矩阵,求它们的乘积。这个问题可以在多项式时间内解决。
2. NP问题的例子:
- 旅行商问题(Traveling Salesman Problem):给定一系列城市和它们之间的距离,找到访问每个城市一次且总距离最短的旅行路线。虽然验证一个给定的路线是否是最短路线可以在多项式时间内完成,但找到最短路线的解需要尝试所有可能的路线,需要指数级时间。
- SAT问题(Satisfiability Problem):给定一个布尔表达式,判断是否存在一组布尔变量的赋值,使得该表达式为真。验证给定的赋值是否满足表达式可以在多项式时间内完成,但找到满足表达式的赋值需要穷举所有可能的赋值,需要指数级时间。
这些例子表明了P问题和NP问题之间的差异。P问题可以在多项式时间内解决,而NP问题只能在多项式时间内验证解。对于NP问题,尽管找到解可能很困难,但一旦有了解,可以在多项式时间内进行验证。
查准率就是说就是说拿出来的西瓜里正确的西瓜的数量,
是查全率相对于查准率的重要性,大于1的话就是查全率更重要