您好,欢迎来到年旅网。
搜索
您的当前位置:首页Web挖掘技术及其在教育中的应用

Web挖掘技术及其在教育中的应用

来源:年旅网
Science and Technology Innovation Her Q 综述 Web挖掘技术及其在教育中的应用 石杰马骋王铮 (山东省青年干部管理学院 山东济南25001 4) 摘要:本文介绍了web挖掘的方法,并对web挖掘的3个步骤,数据获取、数据预处理、模式发现和模式分析进行了详细分析, 在此基础上讨论了web挖掘在教育领域中的应用。 关键词:Web挖掘数据预处理模式发现 模式分析 中图分类号:TP3 文献标识码:A 文章编号:1674--098X(2008)12(a)一0009—0l 1引言 随着以数据库、数据仓库等数据仓储技 术为基础的信息系统在各行各业的应用,海 3.2 Web挖掘模式 目前常用的模式发现规则包括统计分 析、关联规则、聚类、序列模式等。 面的质量高低进行排序,然后再使用超链分 析来对质量高的文档进行聚类,提供给用户进 行浏览和访问。 量数据不断产生。如何从大量的数据中找到 真正有用的信息成为人们关注的焦点,数据 挖掘技术应运而生。Web挖捌 是数据挖掘的 一种,是指使用数据挖掘技术在www数据 中发现潜在的、有用的模式或信息。一般地, Web挖掘可分为w曲内容挖掘、Web结构挖 掘和Web使用记录的挖掘。挖掘过程为:数 据预处理、模式发现、模式分析。 2 web挖掘方法 2.1 Web内容挖掘方法 Web内容挖掘是指从web上的网页内容 及其描述信息中获取有价值的知识模式,从 而提高web数据利用率的过程。它分为Web 文本挖掘和web多媒体挖掘。 2.2 Web结构挖掘方法 web结构挖掘的对象是Web本身的超链 接。对于给定的web文档集合,通过算法发 现它们之间链接的有用信息。 2.3 Web使用记录挖掘方法 在Web使用记录挖掘中,最主要的是 Web服务器日志挖掘。Web日志挖掘就是通 过对网站日志文件的分析,获取网站访问情 况的详细统计数据。 3 Web挖掘的—般过程 3.1数据获取与预处理 数据获取过程一个主要技术关键就是如 何获得全面而精确的用户使用数据。数据处 理的过程一般包括数据清洗、用户识别、会话 识别、事务识别等过程 (1)数据清洗就是把Web服务器日志文件 中冗余的或不相关的数据去除掉,把web日 志转化为适合数据挖掘的可靠的精确数据。 (2)用户识别是将用户和请求的页面相关 联的过程。用户识别常用的方法包括【3;不同 的IP属于不同的用户;一旦发现用户端浏览 器软件或操作系统发生改变,则认为是新用 户;将访问日志和引用日志与站点的拓扑结 构结合构成用户的浏览路径,若发现用户正 在请求页面,又不能从已访问的任何页面到 达,则认为是新用户。 (3)会话识别就是把每个用户在一段时间 内的点击流分解为单个的会话。 (4)事务识别常用于关联规则和序列模式 挖掘,事务即语义相关的网页集,事务识别 就是对用户会话进行语义分组,常用方法有 引用长度法、时间窗法等。 (1)统计分析:统计分析是抽取有关网站 (2)消除在检索结果中重复出现的网页。 访问者信息的最常用的方法。通过分析会话 网站的镜像使得搜索引擎为镜像网页建立了 文件或事务数据库,可对诸如网页视图、浏览 大量重复的索引,导致了检索结果的重复。由 时间等做出不同种类的描述性统计分析。这 于镜像网站具有相似的链接结构,所以通过 类知识有助于改进系统性能、便于站点修改, 超链分析可以找到近似的镜像网站,进而消 提供营销决策支持『3j。 除重复的网页。 (2)关联规则:关联规则挖掘就是挖掘出 (3)帮助学生查找相关的教学页面。通 用户在一个会话期间从服务器上访问的页面/ 过挖掘web的链接结构信息,可以做到根据学 文件之间的关系,找出在某次服务器会话中 生需要查找的某一教学网页。 最经常一起出现的相关页面。 4.3 Web访问信息挖掘的教育应用[ 】 (3)序列模式:序列模式挖掘就是挖掘出 (1)为具有相同学习兴趣的学生群体提供 交易集之间有时间序列关系的模式,在W曲 针对性的服务。应用web访问信息挖掘的聚 日志中发现所有满足用户规定的最小支持度 类方法,将具有相同或相似学习兴趣的学生聚 的大序列模式。 为同一组,并根据他们的兴趣及时调整教学页 (4)聚类:聚类技术是对符合某一访问规 面结构及页面内容。 律特征的用户进行用户特征挖掘,其结果对 (2)实现动态地组织教学页面,提高学生 电子商务和为用户提供个性化的服务特别有 的访问效率。通过对web日志进行挖掘,可以 用。 发现学生访问教学页面的相关性。 3.3模式分析 模式分析是Web使用挖掘的最后阶段。 5结语 这个阶段的目标是从模式发现过程的输出中 随着Web上的信息量的快速增长,隐藏 去除不相关的规则或模式及抽取有兴趣的规 在web中的用户浏览模式将对web浏览用户 则或模式。 获取有兴趣的信息、w曲站点设计人员更合 (1)可视化已经非常成功地用于帮助人们 理地设计web站点和商业组织获得高质量的 理解各种现象,无论是客观存在的还是抽象 市场决策信息产生重大的影响。因而,对Web 的。因此用它来理解Web用户的行为就是自 挖掘的研究也必将成为一个重要的研究方向。 然的选择。 (2)在线分析处理是作为商务处理中的数 参考文献 据库策略分析的一个强大的范例而出现的。 【l】Chakrabarti S.Datamining for 目前在这方面的研究是把挖掘结果放入数据 hypertext:tutorialsurvey[J】.SIGKDD 立方体中来实现。 exPlO ratiOn,2000,1(2):l—l l exNoration. 4 Web挖掘在教育领域中的应用 【2】Srivastava J,Cooley R,Deshpande 4.1 Web内容挖掘的应用 M,TanPang-Ning.Web Usage mining: (1)有效地组织和管理教育网站中的教学 discovery and appficafion of usage pat— 文档。应用文本分类方法,对教育网站中的教 terns form Web dataI J 1. SIGKDD 学文档进行挖掘,可以实现网站中的大量教学 exploration,2000,t(2):l—l2. 文档的层次化结构的组织和管理。 [3】杨炳儒.Web结构挖掘[J】.计算机工程, (2)帮助学生进行有效的信息检索。web 2003,(2O):28—30. 内容挖掘采用的是基于内容的检索技术。尽 [4】王小平,余亮.基于数据挖掘的网络教育资 管只能利用一些相对简单的特征来进行检索, 源库构建[J】.西南师范大学学报. 但随着有关研究的不断深入,必将可以从网页 信息中抽取一些更为详细的特征信息,从而 大大提高检索的全面性和准确性。 4.2 Web结构挖掘的教育应用【4】 (1)提高学生浏览和访问搜索结果的效 率。为了提高学生浏览和访问搜索结果的效 率,可先将用关键词搜索到的前N个页面按页 科技创新导报Science and Technology Innovation Herald 9 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务