年月太原学院学报(自然科学版)20209 e.2020 Sp
基于关联规则的数据挖掘算法分析
郝林倩
(福建船政交通职业学院信息工程系,福建福州3)50007
摘 要:阐述了数据挖掘技术及相关定义,并分析关联规则算法及其应用;通过研究关联规则经典A进行性能分析和剔除非频繁集合项,提升挖掘效率,从而提升算法支持度和可信度。riori算法,p关键词:数据挖掘;;支持度;可信度Ariorip中图分类号:)TP311.13A 文章编号:2096191X(202003004204 文献标识码::/.cnki.2096191X.2020.03.009犇犗犐10.14152j0 引言
人们已不满足于海量数据存储、查询和显示,更关心海量数据背后的信息价值,目前 随着数据时代来临,
人们对于数据信息掌握远远跟不上数据增长速度。如何在海量数据中挖掘有用的信息成为了当前关注的焦点,知识发现、数据挖掘等技术成为了学术界研究的热点。数据挖掘技术就是从海量的、包含噪声的、不完整
]1
的,但却存在潜在价值信息的过程。目前国内处于大数据大力发展时期,为的随机数据中挖掘出事先未知[
但目前对于数据挖掘,特别关联规则算法研究论文及成果相对薄弱和单一,数据挖掘提供了良好外部环境,
所以本文重点对关联规则A并对两者性能进行比照,提出性能优riori和FPtree经典算法进行分析研究,p所以本文对于数据挖掘关联规则探讨研究具有重要的意义。化建议,
1 数据挖掘定义及应用
数据库、模式识别、高性能计算、专家系统等多种学科交叉的新学科。数据采集和 数据挖掘是集统计学、
数据存储技术的快速发展使得数据库中数据量飞速增加,数据挖掘为决策者及管理者的决策提供了参考。数据挖掘应用涉及到民用普通领域,例如商场超市交易数据分析、电子商务购物行为分析等,也涉及到天文
]2图像分析、化学分子数据分析、医疗记录分析等[。数据挖掘处理流程包括问题定义、数据准备、挖掘算法执
行、结果解析及评估等环节。
问题定义即数据挖掘人员与研究领域专家及最终用户协作确定数据挖掘要求及范围(如聚类、关联规则发现等),确定最优的挖掘算法,为后续环节定下基础及方向。
数据准备主要包括数据提取,数据预处理及数据转换。数据提取即按照挖掘任务需求,从海量数据中提
[]3取有用的目标数据()。TaretDatag
数据预处理对目标数据进行数据清洗,包括消除噪声,剔除重复数据,完善缺省数据或者数据类型转换(一般为离散型数据与连续型数据互转)。数据转换主要对目标数据进行降维处理,从数据初始特征中提取目标特征,减少不必要的输入参数,提升处理效率。
收稿日期:20191018
基金项目:福建省教育厅中青年教师教育科研项目()JAT191195
作者简介:郝林倩(,女,山西武乡人,福建船政交通职业学院信息工程系讲师,硕士,研究方向:图像处理、计算机1983-)
视觉、大数据技术应用,:Emailhaochann.com。@qyq
—42—
太原学院学报(自然科学版)
第38卷
挖掘算法执行即根据挖掘问题定义的任务及目的选择适合的算法,包括聚类、分类、规则发现或者序号在选择合理的数据挖掘算法时必须依据数据的特征、用户和系统的任务要求。不同特点的数据模式发现等,
适合不同的算法。而用户的要求可以分为易于理解型结果和精确预测型结果,所以选择的执行算法,根据实际情况来决定。
挖掘结果解析和评估即挖掘任务结果不一定符合挖掘任务预期,因此选择数据挖掘算法允许存在冗余通过结果解析和评估,往前一个环节推导,直接导致选择有用有价值模式。数据挖掘是一个不断迭代过程,
目标数据及适合的数据挖掘算法,通过直观的挖掘结果,评估出有效的挖掘任务,从而得到有价值的挖掘算法。
数据挖掘关联规则算法,通过关联分析发现关联规则,即发现数据与数据之间隐藏的关联信息,包括数因果关联、时序关联等。把所有可能的联系或者模式全部抽取出来,然后再估算其重要性和正确性,量关联、
通过支持度和可信度两个属性来定义所抽取的关联信息的重要性和准确性。
2 关联规则相关概念及定义
即研究数据间关系,如何提升数据挖掘效率,在海量数据信息 关联规则为数据挖掘领域重要研究分支,
中寻找到有用的数据信息。关联规则如下表示,其中犡且犡∩犡犢,犐,犢犐,犢≠犐犐犐犐1,2,3,4。设犐={…为所有数据项集合,其中犐为项,而项的集合为项集。如果包括犓数据项目集合,称之为犐1,2,3…,犽)犿}犽(
]4
,不同的事务构成一个[事务集合犇,即事务数据库。定犓项集。每一个事务为一个项集犜(Transaction)
义关联规则4个属性定义如下:)21 支持度(Suortpp
按照数学定义,集合犡在事务集犇中支持度表示在事务集任取一个事务包含犡概率。所谓支持度实{犜犜∈犇and犡犜}|||,关联规则(际为获取概率。Suort犡)=犡犢支持度犇表示为:pp
犇||
{犜犜∈犇and(犡∪犢)||犜}|,((其中“”表示集合个数。Suort犡犢)=Suort犡∪犢)=||pppp
犇||)22 可信度(Confidence
假设在事务集犇中支持犡项集的事务中,同时也犽%的概率支持事务犢,则称之犽为犡犢的可信度。按照公式表示如下:
({Suort犡∪犢)|犜犜∈犇and(犡∪犢)|犜}|pp(Confidence犡犢)==({Suort犡)犜犜∈犇and(犡)|犜}||pp)23 期望可信度(ExectedConfidencep
假设集合犇中存在犽%支持集合犢,则犽%为支持犡按照公式表示犡犢的期望可信度,犢的期望可信度如下:
(ExectedConfidence犡犢)=狘p
)24 作用度(Lift
所谓作用度为期望可信度与可信度之间的比值结果,即支持集合犡对支持集合犢存在多大的影响概按照数学公式表示犡率,犢作用度如下:
(Lift犡犢)=
(ExectedConfidence犡犢)p(Confidence犡犢)
{犜狘犜∈犇and(犢)犜}狘狘犇狘
在关联规则如上4个衡量标准中,可信度反应关联规则的准确性,而支持度反应关联规则的重要性。期望可
5]
,信度反应其中在没有犡项集影响下[犢项集的可信度情况。而作用度反应项集犡对项集犢的影响度大
小。如果作用度越大,说明项集犡对于项集犢影响力越大,一般情况作用度大于1,说明项集犡对于项集犢具有正面作用,从而说明项集犡和项集犢相关性更强。
—43—
基于关联规则的数据挖掘算法分析 第3期2020年 郝林倩:
3 经典关联规则算法Ariori研究及优化p
riori和FPtree算法。Ariori算法为布尔关联规则所需频繁项集基本 目前关联规则经典算法包括App
该算法利用一个层次顺序搜索的循环方法来完成挖掘频繁项集的工作,即利用犽项集来产生(算法,犽+1)首先找到频繁1项集,记为犔然后利用犔即2频繁集,依此类推层-项集。具体操作步骤如下:1,1挖掘犔2,
而其中每挖掘一层犽都需要扫描一遍集合数据库。A层挖掘直到无法再找到更多的频繁集犔riori具有p犽,一个重要性质,即频繁集合任意子集都为频繁集合。所以Ariori算法处理过程描述如下:p
第一步:在项集1项集犆找出频繁项集1项集犔1。1中,
第二步:在第一步基础上,利用犔犽-1项集连接产生候选集合犆犽。公式表示如下:
],],……,],]},由犔即为犆犾犾犾1犾2犾犽-1犾犽-1项集,12={1[2[1[2[犽-1中可连接的项集所连接的犓犽。
[]6
第三步:删除犆。犽中非频繁的子项集的候选集合第四步:扫描整体数据库,并统计候选集合计数,从而得出最终的项集犆riori算法的伪代码p犽。根据A实现通过层层挖掘找出频繁项集犔实现输入参数包括事务数据库犇及最小支持度m,代码输出结inup犽,-s
]7
果频繁项集犔[。
__(;_犔findfreuent1itset犇)q1=
({for犽=2;犔犽++)犽-1≠;_();en犆ariori犔min_sugpp犽=犽-1,foreach犜∈犇{(;犆犜=subset犆犜)犽,foreach犮∈犆犜犮.count++;}}
};犔犮∈犆犮.countin_su|≥mp犽={犽return犔=犝犽犔犽;elsereturn犉犃犔犛犈foreach犾犔1∈犽-1
foreach犾犔2∈犽-1
]])]]]])]])犾1=犾1牔牔(犾2=犾2牔牔…牔牔(犾犽-2=犾犽-2牔牔犾犽-1=犾犽-1 犳(1[2[1[2[1[2[1[2[{
犮=犾犾12__(asinfreuentitemset犮,犔q犳h犽-1)delete犮;
};else犆犆犮犽=犽∪{}
returen犆犽;
__(;rocedurehasinfreuentsubset犮,犔pq犽-1)
()foreach犽-1subset狊狅犳犮eturnTRUE犳狊犔犽-1relsereturnFALSE
利用如上伪代码获取频繁项集所有的相关关联规则的子集合犆犽。此算法利用数据特质任何频繁项集反向定理若集合存在非频繁集项,则包含此数据项的超集合都不是频繁集合,从而优的子集都是频繁集合,
化A在进行层层挖掘任务中剔除非频繁集合项,根据如上伪代码完成Ariori算法的查找效率,riori算法pp
8]
优化[。
—44—
太原学院学报(自然科学版)
第38卷
4 总结
并研究了基于算法的频繁集合特riori算法, 本文着重分析了数据挖掘技术及其关联规则模式下的Ap
在进行层层挖掘过程中剔除非频繁集合项目,从而提升了A继而再提升挖掘功效。质,riori算法挖掘效率,p参考文献:
[]侯会茹.基于网购用户隐性行为特征的个性化推荐研究[秦皇岛:燕山大学,1D].2014.
[]张师超,朱曼龙,黄睴昌.:一种缺失值填充的新方法[]广西师范大学学报(自然科学版),():2QENNIJ.2010,2817276.[]牛承珍.关于入侵检测技术及其应用的研究[]软件导刊,():3J.2010,91137139.
[]郑霖,徐德华.基于改进T]计算机与现代化,():4FIDF算法的文本分类研究[J.2014969+14.[]何建旺.移动A北京:北京邮电大学,5D].2016.pp用户海量日志分析的优化策略与算法研究[[]塔丽,杨思齐.入侵检测技术在计算机数据库的应用研究[]黑龙江科学,():6J.2018,91142143.[]王雅轩,顼聪.数据挖掘技术的综述[]电子技术与软件工程,():7J.20158204205.[]林朋.两种改进的关键规则挖掘算法研究与应用[合肥:合肥工业大学,8D].2017.
犃狀犪犾狊犻狊狅犳犇犪狋犪犕犻狀犻狀犾狅狉犻狋犺犿犅犪狊犲犱狅狀犃狊狊狅犮犻犪狋犻狅狀犚狌犾犲狊狔犵犃犵
犎犃犗犔犻狀犻犪狀狇
(犇犲犪狉狋犿犲狀狋狅狀狅狉犿犪狋犻狅狀犈狀犻狀犲犲狉犻狀犉狌犻犪狀犃狉狊犲狀犪犾狆犳犐犳犵犵,犼犞狅犮犪狋犻狅狀犪犾犆狅犾犾犲犲,犉狌狕犺狅狌350007,犆犺犻狀犪)犵:,犃犫狊狋狉犪犮狋Thedataminintechnolondrelateddefinitionsareelaboratedesecialltheasggyapysociationrulealorithmanditsalication.BtudinheclassicAriorialorithmofassociagppysygtpg,,tionruleserformanceanalsisandeliminationofnonfreuentsetitemsthemininfficiencpyqgey
,isimrovedsoastoimrovethealorithmsuortandreliabilit.ppgppy
:;;;犓犲狅狉犱狊datamininAriorisuortdereeconfidencedereegpppgg狔狑
(责任编辑:弓 艳)
—45—
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务