您好,欢迎来到年旅网。
搜索
您的当前位置:首页机器学习应用于恶意代码检测的研究

机器学习应用于恶意代码检测的研究

来源:年旅网
科技通报 第29卷第lO期 Vol_29 No.10 2013年1O月 BULLETIN 0F SCIENCE AND TECHNOL0GY 0ct.2013 机器学习应用于恶意代码检测的研究 史晓红 ,张艳宜 (1.江西旅游商贸职业学院,南昌330100;2.江西昌大高科信息产业有限公司,南昌330096) 摘要:在新开发的系统被部署应用之前,恶意代码检测成为非常重要的一个环节,同时也是很大的 一个挑战。本文中,采用机器学习,发现系统的实现结构,包含设计中的正常功能以及隐藏存在的恶意 行为。通常情况下,带有机器学习的出版的系统被认为是完全确定的。但是实际的系统经常是不确定 的,而且流行的算法并不适用。本文设计了针对不完全确定系统的广义并且高效的机器学习算法,来检 验恶意代码的植入。并进一步延伸机器学习的结果,从一个近似的模型开始,比已知的算法更有效的学 习一个实现的结构。实验表明本文的算法更有效地检测恶意植入行为。 关键词:机器学习;恶意代码;不完全确定系统 中图分类号:TP273*.22 文献标识码:A 文章编号:1001—7119(2013)10—0021—03 Research on Machine Learning Applied to the Detection of Malicious Code Shi Xiaohong ,Zhang Yanyi (1.Jiangxi Tourism&Commerce Vocational College,Nanchang 330100,China;2.Jiangxi Chang-Da High-Tech Information Industry Co.,Ltd,Nanchang 330096,China) Abstract:Before the new developed system is deployed,malicious code detection has become very important,and a great challenge.In this paper,the use of machine learning,and found the system to achieve structure contains the normal function of the design as well as to hide the presence of malicious behavior.Under normal circumstances,system with the public,ion of the machine learning is completely specified.But often the actual system is not speciifed,but popular al— gorithm does not apply.We design and efficient machine learning algorithm for not fully specified system of generalized, to test the implant malicious code.And further extension of the results of the machine learning,from an approximate model,the more effective than the known algorihtms to achieve the structure of learning.The experiments show that our lagorihtm is more effective at detecting malicious implanted behavior. Key words:machine learning;malicious code does not completely identify the system 0 引言 的一部分。 发现协议行为模型的第一步是获得输入输出的字 UnreaURCd是开源的IRC服务器。2009年1 1月Un— 母表。许多研究都集中在逆向工程的黑盒二进制消息 reallRCd3.2.8.1在某些镜像点更换一个新的带有后门 格式[1】。在本文中,假定I/O字母表示已知的,包括黑盒 的版本。后门允许远程攻击者拥有很高的用户权限,可 子中系统正常和恶意行为的输入表。任何不属于正常 以在IRCJ]I ̄务器上执行任意系统命令。恶意代码直到 的协议执行的输入都意味着黑盒子中存在非正常行 数月以后才被检测到。它促使本文研究以下问题:在部 为。有时,输入输出表是正常输入输出表的一个子集。 署任意协议之前,需要检测是否有任何恶意代码植入, 例如,一个MSN客户端消息群发器,可以发送随机消息 植入的恶意代码的目的以及功能是什么。为了解决这 到联系人而不会产生任何非正常的MSN消息。在这种 一问题,建立了一个模型来描述协议的执行行为。检查 情况下,不能仅仅通过逆向工程输入信息的格式来确 模型可以检查到嵌入的恶意功能,这是整个行为模式 定是否有恶意代码的嵌入,这是需要构建一个黑盒子 收稿日期:2012—11-06 作者简介:史晓红(1966一),女,南昌人,硕士,教授,主要研究方向:信息技术、高职教育。 22 科技通报 第29卷 入序列中,训练器相应目标所产生的相应输出序列。 (2)反例:训练器生成一个输入序列产生不同的输出目 CHL/QRYMSG 标。反例用来纠正并计算下一步的猜想,直到训练器证 实了这一猜想的目标是相同的。 图1带消息群发器的MSN客户端状态 Fig.1 The MSN client state with mass message 1.3本文中的算法 给定一个协议:B=Bo+B 。其中一B是正常运行的协 议执行,B 是恶意功能,隐藏在协议执行内,及输入输 出字母表。需要确定B 的功能。除了输入输出字母表, 也可以拥有B。的规范。例如,被入侵的IRC J] ̄务器,B。 QRY 圈2不带消息群发器的MSN客户端的状态 Fig.2 With no news of mass MSN client state 行为模型的原因。 通过已知的输入字母表,需要合成一个协议实施 的行为模型。主动和被动的模型算法【2堵5将被采用。考 虑到系统的不完全确定行为,利用扩展£ 和 [31来学 习不完整的有限状态机 。 1相关算法 本文在算法中描述了一个形式化模型。 1.1形式化模型 一个有限状态机(FSM) 是一个五元组: M=(LO,Q,6,A) 其中,,,0和Q是有限的非空输入符号集合,输出 符号集合和状态集合。6是状态转换函数,A是输出函 数。 当机器处于状态Q中的q,并接收到从集合舛 传递 过来的输入,它移动到下一个状态8(q, ,并产生1 ̄8(q, 生成的输出。一个有限状态机,如果任何输入下有特 定的状态和确定的输出,那它在每一个状态的时候是 完全确定的。否则,它是一个不完全确定的有限状态机 (ISFSM),即在某些状态下的某些输入,下一状态或输 出时不确定的。 1.2 Angluin学习算法 Angluin的£ 算法是经典的监督自动学习过程。 修正了 算法的完全确定FSM。 。包含了观察表 E 来表示当前推测的FSM,嗉示有限状态的输入,到 输出O*oS和E代表目前的推测状态和分离序列。开始时 S和E均初始化为空。 和 算法都假设有足够的并且最小的训练器能 够满足如下两种类型的查询。(1)输出查询:给定的输 是正常的IRc服务器功能。B 是植入的后门。确定的 IRC J] ̄务器尬l可能是可得的。眠是一个良好的开端,当 试图合成日的FSM。尬不一定和 旧同,因为规范和实 施之间可能存在差异,在本文方法中,并不需要 和B。 相同,在学习过程中可以借鉴 纠正 。 2 算法介绍 本文首先讨论观察表的修正,修改一致性和封闭 性的定义来适应本文中的算法。并能确保本算法可以 正确的表示最小的FSM,并且功能一致。 首先给出观察表(5,E 的以下定义: 定义1:给定的字符串 和Y, 和y串联表示为 ・Y。 定义2:给定的字符串s和t,s是£的前缀,公式 表 示t删除前缀s后的字符串,因此有y ・ 。 定义3:C={s・ala∈,} 定义4:如果对于t∈(Jsuc)以及s S,存在row(t)= row(s),观察表被关闭。 定义5:如果S中的元素s 和 row(s。)=r0 (s2),观 察表是一致的。 其中,观察表 E,79仍然代表了最小的FSM。 给定一个协议的实现,B=Bo+B'o需要合成FSM B , 如果没有风和眠的近似模型。可以按照一个空的观察 表开始并逐步完善,通过参考文献[5】叶 ,最终获得 的 FSM。如果有 ,先构造一个观察表 代表 ,然后开始 学习的过程,而不是一个空观察表,下面介绍如何将一 个有限状态机的程序变换到观察表。 输入:FSM Mo,初始状态为q。 输出:代表眠的观察表 1.for each state q in Mo 2.seq input sequence that brings Mo from q0 to q 3.add seq as a row of 4.for each a∈, 5.if seq.a is defined(output query) 6.add seq.a as a row of To 7.SS=separating sequences of眠 8.for each seq in SS 第l0期 史晓红等.机器学习应用于恶意代码检测的研究 9.add seq as a column of To 10.for each column e in To 11.for each row s in To 12.seql=ask trainer output query of S 13.seq2=ask trainer output query of S’e 息,而带有消息群发器的MSN客户端将回应多种CHL 消息。 3 结论 本文定义了一种通用机器学习算法来检测系统执 行中的恶意代码。执行程序已经成功的检测到MSN客 户端消息群发器中的后门。目前正在将应用来自动地 检测更多系统中植入的恶意代码。 14.column e row s of To=seq2\seql 其中,在算法的5行,12行和13行查询训练器,而不 是查询给定的FSM M0来填满死。原因主要有,眠可能 不会是正确由于规范和实现之间的差异,通过训练器 可以纠正眠。其次,眠可能比 有更多的状态。为了算 法的终止与正确的推测,必须使得观察表的行数不超 过 。 参考文献: [1】Provos N,McNamee D,Mavrommatis P,Wang K and Modadugu N.The Ghost in the Browser:Analysis of 假设日 有n个状态,一旦初始化观察表有m个状 态,m<.ti。可以保证本文的算法最后是终止的。基本思 想为每当新增一个新的行或者列,至少增加一行,但不 Web?based Malware.【C】,仃n Proceedings of the 2007 Workshop on Hot Topics in Understanding Botnets(Hot- Bots). [2】 Qattan F,Thernelius F.Deficiencies in Current Software Protection Mechanisms and Ahematives for Securing 能超过n—m,这样就能保证本文的算法是可终止的。 将算法应用于实验,一个带有消息群发器功能的 MSN客户端,它的恶意功能不引入任何额外的不正常 的MSN消息的输入或输出符号。 消息群发器向联系人列表的人连续发送随机文本 消息,而两条消息之间有一定的时间间隔。 图1和图2分别是带消息群发器和不带消息群发器 的MSN客户端的算法状态图。需要注意的是,图1和图2 只显示算法的用户登录后的空闲阶段,且在用户起始 Computer Integrity【D】.Master thesis,Department of Corn— puter and Systems Sciences Stockholm University—Royal Institute of Technology. [3】 王霞.一种基于模糊距离的网络通讯协议优化策略[J1 .科技通报,2013,29(4):94—96. [4]D ee Land M Yannakakis.Principles and Methods of st— ing Finite State Machines—A survey,[C]#Proc.IEEE, 1996:1090—1l23. 状态之前用户没有和其它用户有过消息来往。通常情 况下,在图2中本来不应该有任何文本消息被发送。消 息群发器会导致MSN客户端发送文本消息。消息群发 [5】D Angluin.Learning Regular Sets from Queries and Coun— terexamples【J].Information and Computation 75,1987: 87-】06. 器改变了MSN客户端的行为。不带有消息群发器的 MSN客户端将仅仅回应第一个在空闲状态的CHL消 (上接第20页) 理与访问,同时便于部署与实施阁。 ing intrusion detection models【C]//Seeurity and Privacy, 1999.Proceedings of the 1999 IEEE Symposium on Pub— lication Year.1999:120—132. 3结论 本文分析了聚类、分类、关联规则等在IDS中常用 (3] 宋淑彩.面向Web的数据挖掘技术在网站优化中的个 性化推荐方法的研究与应用[J】.科技通报,2012,28(2): l18—119. 的数据挖掘算法,并介绍了DAID这种以数据库为中心 的数据挖掘体系架构模型,对其数据处理过程进行展 现,进一步保证了数据库的安全性。 [41 Wenke Lee,Stolfo S Chan P K.Real time data mining— based intrusion detection【C]//Pattem Recognition,Infor— matics and Medical Engineeirng(PRIME),2012 Interna- tional Conference on.Publication Year.20o1:89一loo. 参考文献: [1】 Ming Xue,Changjun Zhu.Applied Research on Data Min- ing Algorithm in Network Intrusion Detection[C]//Artiifcila Intelligence.2009.JCAI"09.Internationa1 Joint Confe卜 ence on.Publication Year,2009:275—277. [5] Campos M M,Milenova B L.Creation and deployment of data mining-based intrusion detection systems in Oracle Database 10g[C]//Machine Learning and Applications, 2005.Proceedings.Fourth International Conference on. Publication Year,2005. - J 【2】 Wenke Lee,Stolfo S J.A data mining framework for build一 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务