为了设计和开发校园网的智能搜索引擎,研究分析了搜索引擎的工作原理,Lucene的运行机制以及智能搜索引擎的功能需求。合学校校园网的建设,一套基于Lucene的智能搜索引擎由四个子系统组成:探索系统,索引系统,引擎管理平台和系统。究,这是一个搜索功能,信息监督,系统安全,智能互动已经增加。
索引擎为对搜索结果寄予厚望的校园用户提供决策支持。键词:网络爬虫; Lucene的;校园网;智能搜索引擎;索引系统中图分类号:TN964? 34文件编号:A货号:1004? 373X(2013)06? 0083? 04随着互联网的快速发展互联网上信息的爆炸性增长,人们被巨大而多样的信息所包围,用户必须在信息的海洋中找到所需的信息,所有就像在大海捞针一样,有时她会回来而没有成功。此,搜索引擎技术应运而生,有效地解决了信息量与用户查找信息难度之间的矛盾。今,商业搜索引擎已经成熟,搜索方法变得更加人性化和智能化。据调查,全国约有30%的大学使用内置的百度或谷歌引擎作为校园的内部搜索引擎,但发现商业搜索引擎难以在中进行完整准确的搜索。个域名。此,高校需要根据校园网环境的特点设计和实施一套智能有效的搜索引擎。文在研究和分析Lucene搜索引擎运行机制和运行机制的基础上,建立了基于Lucene Campus网站的全文智能搜索系统包,针对学校和用户的所有类型网站的全文搜索服务。速,轻松,准确,全面地查找改善学校网站使用所需的信息。索引擎和Lucene概述搜索引擎使用Web爬网程序搜索Web内容。Web上的HTML文档是基于Web的超链接。

站爬虫也称为网络蜘蛛。页进入带有机器人的网页,提取内容,并提取超链接作为索引以继续抓取[1]。络机器人总是希望从某个起点攀登。个起点称为种子。可以知道。也可以在某些网站上获取它。于机器人收集了大量数据,因此出现了问题。么弄?从收集的数千条信息中快速准确地查找所需信息。需要为文本创建索引,转换内容或可以快速搜索的格式,从而消除顺序扫描中的慢搜索。单地理解为快速搜索单词的工具,当用户想要查询他需要的信息时,提取工具接受用户的输入,构建查询,然后执行快速的语法分析。
本库。索,排序相关性,最后向用户提供查询结果。于上述分析,基本搜索引擎系统应由三部分组成:搜索器,索引器和换热器[2]。Lucene是Apache Software Foundation的jakarta项目团队的子项目,这是一个全文的开源搜索引擎工具包,而不是一个完整的研究项目。只是研究计划及其研究模块的核心。各种应用程序中的应用程序实现全文索引/检索功能[3]。
Lucene具有以下显着优势[4]:索引文件的文件格式独立于应用程序的平台。Lucene定义了一组基于字节的索引文件格式,允许不同平台上的兼容系统或应用程序共享已建立的索引文件。于传统全文搜索引擎的反向索引,实现了块索引,这使得可以为新文件建立简化的文件索引并提高索引的速度。后,通过与原始索引的合并,优化的目标。色的面向对象系统架构有助于学习Lucene扩展,并有助于扩展新功能。计了一种独立于语言和文件格式的语言分析界面。引器通过接受令牌流来完成索引文件的创建。户扩展了新语言和新文件格式,只需实现文本分析界面。认情况下,已实现强大的查询引擎。户无需编写自己的代码。然系统可以获得强大的查询功能,但Lucene查询实现实现了布尔运算,模糊查询,组查询等。Lucene实际上为用户提供了三个主要组件:索引,搜索和管理。引组件分为四个部分:爬虫用于收集和定义要索引的内容,然后将生成的内容转换为文档,文档通常包含域名,如标题,身体,摘要,作者,链接等在分析中,文本被分为一系列词汇单元,通常称为切词,最终文档被添加到索引列表中。索组件由三部分组成:首先,发出请求,将用户提交的请求转换为搜索引擎特有的查询的对象格式,其次,查询检索索引并返回文档对应于关键字,引擎遵循一定的机制类型,最后,呈现查询结果,并将结果直观,经济地呈现给用户。Lucene已经成为校园搜索引擎发展不可或缺的框架,具有突出的优势和非常全面的索引和查询组件。过这种方式,领先的大学可以扩展该计划并引领Lucene的二次开发,以在校园网络上创建适合学校的搜索引擎。能搜索引擎的功能分析本研究为校园网站开发了全文检索系统,具有个性化,智能化,
宁波seo动手管理和高安全性,尤其对以下三个要求。索功能可以搜索指定的网站并确定每个网站的不同搜索规则,例如搜索深度,搜索范围,更新周期等。于支持和实时更新包含真实世界更新的网站或网页的网页。新即时搜索的索引。
rtf,pdf等格式。询,组合查询,短语查询,通配符和前缀查询。访问控制的粒度中,学校内外用户的搜索结果必须不同,以及不同角色的恢复权限。如,如果某些网站不允许学生访问,则他们将不具有搜索权限。过智能交互功能,该功能适用于学校内部员工。擎可以记录用户的查询历史记录,点击保存可以永久性地纠正和改善用户感兴趣的词语。
用户提供决策支持。息监控使得可以准确地实现对搜索结果的访问控制。供学校用户使用的信息不能以任何形式显示在校外用户搜索结果中,也不能提供原始链接。定访问控制的方法包括:根据源网站提供的信息访问控制规则;确定每个网站的规则;根据预定义的过滤规则。可以提供有效的信息监督方法,在敏感的词汇,资源等基础上保护搜索结果,具有分析研究趋势的功能。统安全系统必须具有全面的安全措施,没有明显的安全漏洞,并且可以防止SQL注入和跨站点脚本等Web攻击,并且不会导致信息泄露网络攻击。统可以在索引编制期间扫描和标记病毒和特洛伊木马,以及邀请或阻止搜索结果,以防止存在安全问题的网站扩大搜索范围。过搜索系统。索引擎的智能实现整个搜索引擎系统的设计和实现分为四个子系统,即机器人系统,索引系统,引擎管理平台智能搜索,搜索系统。图1所示,解析器定期从队列中检索爬虫的URL,同时生成多个线程扫描,并将解析的数据存储在MySQL数据库中。东。于Web内容的提取,这一直是搜索引擎的重要技术之一。Lucene没有提供完成内容获取的任何功能,这就是为什么由Java开发的另一个开源Web浏览器Heritrix [5]也具有很高的可扩展性,开发人员可以扩展其组件。自己的内容探索在分析之前,您必须详细分析分析的内容以确定种子,即分析的起始页。择扫描列表的网站后,可以启动Heritrix以在WebUI模式下分析任务。后,生成Heritrix分析的内容以生成图像文件。后,HTMLParser工具用于分析和组织图像文件,该文件用作以下索引的基础。整的搜索引擎系统需要配置许多控制功能.Lucene管理界面为开发人员提供了许多配置选项,例如设置缓冲区使用情况,验证更改的频率,优化和删除索引的时间点[7]。]。于该系统,在机器人管理,敏感词典管理和特洛伊木马监控中增加了两个新功能。
感词典在保护敏感用户免受用户查询中起作用。应字的系统地址,允许管理员监控每个系统。

洛伊木马监控允许管理员轻松检测包含病毒或特洛伊木马的站点,并采取适当的预防措施来避免它们。索系统测试的结果表明,搜索引擎比一般搜索引擎具有更高的查询时间和准确性,更适合在校园网络上使用。束语Lucene是一个优秀的全文,开源,开源技术框架,具有良好的可扩展性,有助于稳定校园网的智能搜索引擎系统,促进其应用以及基于搜索引擎技术。一些实际意义。
时,系统还有一些需要改进的地方,例如改进搜索算法和改进搜索智能,所有这些都在进一步探讨。考文献[1]匿名。索引擎的基本原理[EB / OL]。[2010? 11? 24。Http://blog.csdn.net/zhangxinrun/article/details/6032265.[2]蔡建超基于Lucene.net的校园网搜索引擎的设计与实现[J]。算机技术与发展,2006,16(11):73? 75. [3]关建和,甘剑锋。于Lucene全文搜索引擎实现搜索应用程序[J]。程与计算机设计,2007,28(2):489-491。4] Lucene [EB / OL]的突出优点。[2012年? 06至26]。Http://白令。

Baidu.com/view/371811.htm.[5]朱雪莲基于Lucene的专业搜索引擎的研究与应用[J]。算机,2010(7):116-119。[6]田宇。于XML的搜索和实现基于Web的信息检索系统[D]。和浩特:内蒙古大学,2010。7] Michael MCCANDLESS,ERIK Hatcher,GOSPODNETIC Otis。Lucene打架[M]。昌流,萧昱翻译,2版。:人民邮电出版社,2011。8]马家玉,杨晓华。于J2EE架构的智能搜索元数据系统的设计与实现[J]。算机应用与软件,2008,25(8):68? 69.99。
本文转载自
宁波seowww.leseo.net
补充词条:
宁波网站seo
宁波seo哪家好
宁波seo排名
宁波网络seo公司
宁波谷歌优化