Apriori 的初步了解

Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法,它是由 Rakesh Agrawal 和 RamakrishnanSkrikant 提出的。

Apriori 算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori 算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。

Apriori 算法过程分为两个步骤:

  • 通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;
  • 利用频繁项集构造出满足用户最小信任度的规则。

具体做法就是:

首先找出频繁 1- 项集,记为 L1;然后利用 L1 来产生候选项集 C2,对 C2 中的项进行判定挖掘出 L2,即频繁 2- 项集;不断如此循环下去直到无法发现更多的频繁 k- 项集为止。每挖掘一层 Lk 就需要扫描整个数据库一遍。算法利用了一个性质:任一频繁项集的所有非空子集也必须是频繁的。意思就是说,生成一个 k-itemset 的候选项时,如果这个候选项有子集不在 (k-1)-itemset(已经确定是 frequent 的)中时,那么这个候选项就不用拿去和支持度判断了,直接删除。

0%