宁波seo优化专栏

高校图书馆搜索引擎中Web使用记录挖掘研究

发布时间:2018-12-16 22:55:08
  摘要:针对高校的信息资源检索的命中率低问题提出了运用Web运用记载发掘的高校图书馆查找引擎。经过选用Web运用记载发掘技能和Clementine对高校图书馆网站的Web拜访日志记载进行发掘。在Web运用记载发掘流程中,提出一个依据用户IP、登陆时刻、网站的拓扑图、引证网页和Agent来辨认出单个用户的新算法,取得有用进步辨认用户的试验成果。最后用途径剖析来发掘形式,优化网站结构,然后进步高校图书馆查找引擎的命中率。
  关键词:Web运用记载发掘;查找引擎;途径剖析;高校图书馆;用户辨认
  中图分类号:TN911?34文献标识码:A文章编号:1004?373X(2013)02?0001?05
  0引言
  高校图书馆运用数字技能进行信息资源的安排和管理,能够存储海量的信息。高校图书馆的查找引擎部分地解决了资源发现的问题,但是它可能会回来给用户不计其数检索到的网页,而其间很大一部分与用户的要求无关,用户不能快速、精确地得到所需的有价值的信息。因而,运用Web运用记载发掘的高校图书馆查找引擎随之发生。运用Web运用记载发掘的高校图书馆查找引擎是专门针对高校的信息资源进行检索的查找引擎,是完结高校教育资源共享进步查找命中率必不可少的东西,所以高校图书馆查找引擎中Web运用记载发掘的使用研讨具有十分重要的科学意义和使用价值。
  Web运用记载发掘[1]是从用户“拜访痕迹”中获取有价值的信息,是对Web上日志数据及相关数据的发掘。Web运用记载发掘技能和东西可分为2大类:拜访形式的追寻和个性化的运用记载的追寻。一般的拜访形式追寻经过剖析运用记载来了解用户的拜访形式和倾向,以改善站点的安排结构;个性化的运用记载追寻则倾向于剖析个别用户的偏好,其意图是依据不同用户的拜访形式,为用户供给定制的效劳。其意图是猜测用户网上的行为,比较网站的实际运用与希望的不同,依据用户的爱好调整网站结构。经过Web运用记载发掘技能对高校图书馆网站的Web拜访日志记载进行发掘,发掘出用户拜访形式、频频拜访途径等信息,然后优化站点结构、获取和剖析用户需求信息、为用户供给高校图书馆查找引擎体系效劳以及为图书馆管理层供给决议计划支撑。
  1高校图书馆查找引擎中Web运用记载发掘流程剖析
  在高校图书馆体系中,运用Web运用记载发掘的Web拜访日志数据为中心剖析高校图书馆查找引擎体系。高校图书馆的日志文件选用SQLServer数据库来完结相应的发掘操作,又用Clementine发掘东西作以弥补。
  Clementine发掘东西[2]是ISL公司开发的数据发掘东西平台。Clementine结合Web运用记载发掘技能能够快速树立猜测性模型,进而使用到高校查找引擎体系中,协助高校图书馆改善图书馆查找引擎体系的结构,为读者供给个性化效劳。
  整个高校图书馆查找引擎体系提出了一套适合Web运用记载发掘的流程图,依据这个流程图,进行数据搜集,数据预备,树立用户爱好模型,形式发掘等操作。如图1高校图书馆查找引擎中Web运用记载发掘的流程图所示。
  图1高校图书馆查找引擎中Web运用记载发掘的流程图
  1.1数据搜集
  用户阅读信息被Web效劳器自动搜集并保存在拜访日志、引证日志和署理日志中。依据高校图书馆网站自身特点,主要研讨Web拜访日志。依据高校图书馆的Web效劳器拜访日志,经过拜访途径C:/WINDOWS/System32/LogFiles搜集需求的信息。Web拜访日志记载用户拜访信息。下面是一段搜集的Web效劳器拜访日志:
  #Software:MicrosoftInternetInformationServices6.0
  #Version:1.0
  #Date:2012?05?2107:06:45
  #Fields:datetimes?sitenames?ipcs?methodcs?uri?stemcs?uri?querys?portcs?usernamec?ipcs(User?Agent)sc?statussc?substatussc?win32?status
  2012?05?2107:06:45W3SVC894523192.168.16.86GET/index.htm?80?192.168.16.80Mozilla/4.0+(compatible;
  +MSIE+7.0;+Windows+NT+5.1;+Trident/4.0;+GTB6.6;
  +.NET+CLR+2.0.50727;+360SE)20000
  上述日志的数据包含的主要项的意义如下:
  (1)datetime:时刻戳。
  (2)s?sitename:体系效劳。
  (3)s?ip:被拜访效劳器的IP地址。
  (4)cs?method:客户拜访的方式,有GET和POST。
  (5)cs?uri?stem:恳求文档的URL,即所拜访的页面。
  (6)cs?uri?query:URL查询,用户预进行的查询。
  (7)s?port:被拜访效劳器的端口。
  (8)cs?username:用户ID,是在被拜访页面需求进行用户注册时才有的。
  (9)c?ip:客户主机的IP地址。
  (10)cs(User?Agent):表明客户机的阅读器类型、版本即所运行的操作体系。
  (11)sc?status:回来码。200代表成功,404代表找不到所恳求的页面。
  (12)sc?substatus:效劳端传送到客户端的字节巨细。
  (13)sc?win32?status:客户端传送到效劳端的字节巨细。
  有用地对这些Web日志数据定量剖析,提醒其间的相相关系,页面类属联系,用户类属联系和频频拜访页面等,不光能够为优化Web站点的拓扑结构供给参考,协助用户承认目标信息,改善拜访途径,取得更精确的信息,进步查准率。
  1.2数据预备
  数据预备主要是数据预处理进程,数据预处理成果将直接影响后边进行的途径剖析的作用。数据预备取得较好的作用能够进步后续流程发掘出的形式质量,也能够缩短发掘所需的时刻。由于Web日志文件的格式是半结构化的,所以对Web日志文件进行预处理是十分必要的。
  (1)Web日志文件的数据整理。大多数只要日志中HTML文件与用户会话相关。由于Web日志发掘的意图是取得用户的行为形式,并不关怀那些用户没有显式恳求的文件,所以删去URL后缀不相关的数据。不相关的数据类型有:GIF,JPEG,JPG,gif,jpeg,jpg,swf和map这些后缀为这些的记载从数据库中删去,保留有用的信息:IP地址、恳求时刻、办法/协议/URL、引证页和署理。
  (2)用户辨认。数据整理后,接着辨认用户。辨认用户是从Web日志文件中辨认出有哪些用户拜访了网站,每个用户拜访了哪些网页。用户辨认办法有4种:第一能够仅用IP地址辨认用户;第二能够用IP地址和引证地址辨认用户;第三能够用IP地址、引证地址和Agent辨认用户;第四也能够考虑依据用户IP(c?ip)、登陆时刻(Logtime)、网站的拓扑图、引证网页(cs?uri?stem)和Agent来辨认出单个用户。依据所搜集的日志文件,登陆该网站的都为非注册用户,非注册用户只能经过Web拜访日志来辨认。
  (3)会话辨认。会话辨认的意图就是将日志中每个用户每次的拜访记载区别出来,然后以会话为根本单位来反映一个用户一次的拜访情况。一个会话就是用户在一次拜访中所拜访的Web页面序列。
  1.3树立用户爱好模型
  用户爱好模型是高校图书馆查找引擎体系的关键部分,用户爱好描绘的精确与否直接决议着查找引擎体系效劳的质量好坏。运用用户爱好提取技能对抓取的网页文件树立用户爱好模型。首要获取用户个性化信息。富的用户信息库存储了用户的名字、性别、年龄、学历、专业、借阅书或期刊的历史、原文传递的内容、研讨范畴、科研成果以及以往提出的个性化信息效劳等信息。经过发问式或许用户偏好方式进行数据源选择和发问调整来提取数据源,然后对其进行页面检索和页面剖析,运用用户主动供给的用户偏好成果树立用户爱好模型。
  整个用户爱好模型的创立进程包含Web阅读内容剖析和Web阅读行为剖析2部分,流程图如图2所示。
  图2用户爱好模型流程图
  Web阅读内容剖析,就是选用Web聚类剖析办法对用户已阅读的Web页面集进行内容聚类,得到用户感爱好的页面集;Web阅读行为剖析是对用户阅读页面时的行为信息进行剖析,得到用户对单一页面的爱好浓度。将二者相结合,就得到了用户感爱好的主题类别及对每类主题的爱好度,即用爱好分类树表明的用户爱好模型。
  1.4形式发掘
  形式发掘阶段[5]能够选用统计法、机器学习法等技能,从Web运用记载中发掘常识。完结算法能够用统计剖析、聚类、分类、相关规矩等。能够统计对特定网页或文件的拜访情况,常用和少用的资源,不同的范畴和区域的用户散布,用户和区域间的相关情况等。运用Web发掘核算发掘流量剖析,用户的爱好模型剖析、行为形式剖析和事务剖析。用户的爱好偏好有哪些,用户的行为形式有哪些,不同的用户群在运用和行为上有何不同,用户的行为是否随时刻改变和改变如何等。经过剖析Web拜访日志能协助了解用户的行为和Web结构。依据数据搜集和数据预备剖析的数据选择拜访形式发现的技能,本文选用途径剖析方式用来发现Web站点中最常常被拜访的途径,然后能够调整站点的结构。途径剖析技能[4]运用Web链接日志文件项决议每一用户的途径,并将途径按时刻顺序排序。途径剖析有助于断定拜访某一个Web站点时运用最频频的途径。
  2查找引擎Web运用记载发掘使用
  高校图书馆查找引擎体系效劳能够分为三种:第一是推送与定制效劳即依据用户的爱好偏好,选用定制的Web页面、分门别类的信息栏目收发E?mail等方式,把详细的偏好信息传输给特定需求的用户。第二是引荐与报导效劳即过智能化引荐和主动报导的途径,深入剖析用户的特征和研讨爱好,主动向用户引荐需求的信息。第三是常识决议计划效劳。经过运用数据发掘的技能对有用的信息内容再进行深层次的剖析与发掘,向用户供给能够用于决议计划支撑、智能查找等常识效劳方面的规矩和形式。针对某高校图书馆查找引擎中Web运用记载发掘进行使用剖析。
  2.1数据搜集
  高校图书馆以某高校图书馆为例进行剖析。网站分为图书馆介绍、规章制度、读者效劳、电子资源导航、材料下载和精品课程6个版块。学校效劳器每隔24小时生成一个日志文件,记载了2012?3?1T00:00?23:59时刻段用户对效劳器的拜访。依据所搜集的图书馆的日志文件从2012?3?1?5?30数据共37MB的数据文件,选用SQLServer数据库来完结相应的发掘操作,又用Clementine发掘东西做以弥补辨认办法一:只依据IP地址辨认用户,辨认出3439名用户;辨认办法二:依据IP地址和引证地址辨认用户,辨认出4489名用户;辨认办法三:依据IP地址、引证地址和Agent辨认用户,辨认出4543名用户;辨认办法四:依据用户IP、登陆时刻、网站的拓扑图、引证网页和Agent来辨认用户,辨认出4965名用户。
  由试验能够看出,辨认办法四辨认出用户4965名,但用辨认办法一仅辨认出用户3439名,将会有1526名用户被疏忽,可见辨认办法四具有更高的用户辨认精度。
  2.3途径剖析发掘形式
  经过途径剖析本文要发掘出两个方面的信息:哪些网页被频频拜访和哪些用户常常拜访图书馆网页。
  途径剖析进程如下:依据c?ip和cs?uri?stem两个字段生成用户ip及拜访途径的统计图,从中能够得出哪些用户常常拜访网站、哪些网页被频频拜访等信息。如图6所示。
  图6中条形码的长短代表不同用户的点击次数,条形图越长阐明这一用户在网站点击页面的次数越多,在网站停留时刻也越长,对网站的内容也越感爱好,也就是所要发掘的用户。经过对某高校图书馆查找引擎体系实证剖析Web运用记载发掘在高校图书馆查找引擎体系中的使用流程。
  Web运用记载发掘在高校图书馆查找引擎中的使用为用户供给不同的个性化效劳体系,并供给用户对站内信息进行查找功用,同时能够满足师生对于图书馆资源进行查找拜访的需求,完结高校图书馆网站资源有用效劳,改善图书馆的网站结构,进步了高校图书馆的查准率。
  3结语
  本文侧重研讨了Web运用记载发掘,经过发掘网站运用日志来获取感爱好的形式。本文剖析了高校图书馆查找引擎体系中Web运用记载发掘的根本流程,提出了日志数据在数据预处理的问题,并提出了用Clementine软件进行Web运用记载发掘的全进程和用途径剖析办法来发掘形式,有用地发掘出潜在的用户,也进步了高校图书馆查找引擎的查准率。在Web运用记载发掘的根本流程中树立了用户爱好模型,盯梢用户在阅读器上的行为数据和阅读内容,深入剖析用户的阅读行为数据,取得用户的信息材料集,终究为用户供给不同的个性化效劳页面,并供给用户对站内信息进行查找功用高校图书馆查找引擎中Web运用记载发掘的研讨具有必定的使用价值。
  参考文献
  [1]吴育良.图书馆网站建造之查找引擎[J].优化科技情报开发与经济,2008,18(21):123?125.
  [2]王侠,陆敏.网络环境下查找引擎与图书馆信息效劳的对比剖析[J].医学信息,2009,22(9):45?47.
  [3]刘金元.现代图书馆信息效劳形式:个性化定制效劳[J].兰台世界,2007(1):58?60.
  [4]符静.查找引擎市场在图书馆范畴的拓展和影响[J].图书馆建造,2007(1):156?159.
  [5]张沛露,王建军.Web发掘技能在高校数字图书馆个性化效劳中的使用[J].吉林建筑工程学院学报,2010,27(3):37?39.
  [6]郑薇.依据Web发掘的高校档案馆用户阅读行为个性化研讨[J].中国教育信息化·高教职教,2008(10):40?43.
  [7]王艳,张帆,杨炳儒.依据Web发掘的数字图书馆个性化技能研讨[J].情报杂志,2007,26(1):91?93.
  [8]史嘉陵.数据发掘在数字图书馆个性化效劳中的使用[J].农业网络信息,宁波网站优化2009(4):173?175.
  [9]陈雪.Web发掘在高校数字图书馆个性化效劳中的使用[J].兰台世界,2008(24):87?89.
  [10]周合明,奚建清.依据模板的Web信息提取体系的设计与完结[J].核算机技能与开展,2011,21(11):209?211.
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波seo哪家好  宁波seo推广公司  宁波网站排名优化  宁波seo网站优化  宁波网络seo