支持度、置信度和提升度

Reference:关联分析中的支持度、置信度和提升度

1.支持度(Support)

支持度表示项集 $ (X, Y ) $ 在总项集里出现的概率。公式为:

其中,$num \left(I\right) $ 表示总事务集的个数, $num\left(X \cup Y\right)$ 表示含有 $\{X, Y\}$ 的事务集的个数(个数也叫次数)。

2.置信度(Confidence)

置信度表示在先决条件X发生的情况下,由关联规则 $X \rightarrow Y$ 推出 $Y$ 的概率。即在含有 $X$ 的项集中,含有 $Y$ 的可能性,公式为:

3.提升度(Lift)

提升度表示含有 $X$ 的条件下,同时含有 $Y$ 的概率,与不含 $X$ 的条件下却含 $Y$ 的概率之比。

例1,已知有1000名顾客买年货,分为甲乙两组,每组各500人,其中甲组有500人买了茶叶,同时又有450人买了咖啡;乙组有450人买了咖啡.

试求解

  • 1)“茶叶$\rightarrow$咖啡”的支持度

  • 2)“茶叶$\rightarrow$咖啡”的置信度

  • 3)“茶叶$\rightarrow$咖啡”的提升度

分析:

设 $X= \{买茶叶\}$ ,$Y=\{买咖啡\}$,则规则 “茶叶$\rightarrow$咖啡” 表示 “即买了茶叶,又买了咖啡”,于是,“茶叶$\rightarrow$咖啡”的支持度为

$Support(X \rightarrow Y) = 450 / 500 = 90\%$

“茶叶$\rightarrow$咖啡”的置信度为

$Confidence(X \rightarrow Y) = 450 / 500 = 90\%$

“茶叶$\rightarrow$咖啡”的提升度为

$Lift(X \rightarrow Y) = \frac{Confidence(X \rightarrow Y)}{P(Y)} = \frac{90\%}{((450+450) / 1000)} = 90% / 90% = 1$

由于提升度 $Lift(X \rightarrow Y ) =1$,表示 $X$ 与 $Y$ 相互独立,即是否有 $X$,对于 $Y$ 的出现无影响。也就是说,是否购买咖啡,与有没有购买茶叶无关联。即规则“茶叶$\rightarrow$咖啡”不成立,或者说关联性很小,几乎没有,虽然它的支持度和置信度都高达90%,但它不是一条有效的关联规则。

满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。

如果$Lift(X \rightarrow Y) > 1$,则规则$X \rightarrow Y$是有效的强关联规则。

如果$Lift(X \rightarrow Y) <= 1$,则规则 $X \rightarrow Y$是无效的强关联规则。

特别地,如果$Lift(X \rightarrow Y) = 1$,则表示 $X$ 与 $Y$ 相互独立。

0%