题型笔记 | Apriori算法
目录
- 内容
- 拓展知识
内容
其步骤如下:
- 扫描全部数据,产生候选项 1 1 1 项集的集合 C 1 C_1 C1
- 根据最小支持度,由候选 1 1 1 项集的集合 C 1 C_1 C1 产生频繁 1 1 1 项集的集合 L 1 L_1 L1。
- 若 k > 1 k > 1 k>1,重复步骤 ( 4 ) (4) (4)、 ( 5 ) (5) (5) 和 ( 6 ) (6) (6)
- 由 L k L_k Lk 执行连接和剪枝操作,产生候选 k + 1 k+1 k+1 项集的集合 C k + 1 C_{k+1} Ck+1。
- 根据最小支持度,由候选 k + 1 k+1 k+1 项集的集合 C k + 1 C_{k+1} Ck+1,筛选产生频繁 k + 1 k+1 k+1 项集的集合 L k + 1 L_{k+1} Lk+1
- 若 L ≠ ∅ L \neq \emptyset L=∅,则 k = k + 1 k = k+1 k=k+1,调往步骤4;否则,调往步骤 7。
- 根据最小置信度,由频繁项集产生强关系规则。结束。
拓展知识
Apriori算法是一种经典的关联规则挖掘算法,用于发现数据集中频繁项集及其关联规则。以下是关于Apriori算法的一些重点内容:
频繁项集:频繁项集是在数据集中经常出现的一个或多个项的集合。在Apriori算法中,通过设定最小支持度阈值,找到数据集中出现频率高于该阈值的项集。
支持度(Support):支持度指的是某个项集在数据集中出现的频率。支持度可以通过计算项集在数据集中出现的次数,再除以总数据项数得到。
置信度(Confidence):置信度指的是关联规则的可信程度,即在项A出现的情况下,项B也会出现的概率。置信度可以通过计算关联规则的支持度除以项A的支持度得到。
Apriori原理:Apriori算法基于Apriori原理,即如果一个项集是频繁的,那么它的所有子集也一定是频繁的。这个性质可以用来减小搜索空间,提高算法效率。
挖掘关联规则:通过找到频繁项集,可以进一步挖掘关联规则。关联规则是表示两个项之间的关系,通常用支持度和置信度来衡量规则的优劣。
通过使用Apriori算法,可以发现数据集中隐藏的模式和规律,为数据分析和决策提供有益信息。Apriori算法的实现通常包括两个阶段:生成频繁项集和生成关联规则。在生成频繁项集的过程中,通过不断增加项的长度,筛选出满足支持度阈值的频繁项集;在生成关联规则的过程中,根据频繁项集的支持度和置信度,找到满足条件的关联规则。