Web上的垂直搜索引擎是一个复杂的信息系统。
前,大多数研究都集中在解决搜索引擎问题以及缺乏对在Web上实现垂直搜索引擎的全过程的研究。
了解决这个问题,本文提出了一种实现三层Web垂直搜索引擎的过程。个过程包括数据准备,查询处理和界面交互。用Java语言和相关的开源工具,实现实现过程的特定任务的实际操作,并创建用于在移动电话上搜索信息的垂直web搜索引擎。层架构和实现过程有效地为创建基于Web的综合垂直搜索引擎提供了理论基础和实用技巧。键词:网络搜索,搜索引擎实现,垂直搜索架构,机器人中图分类号:TN911? 34文件编号:A货号:1004? 373X(2016)08? 0055?上的WebZHANG洪宪帝垂直搜索引擎的实现过程05Recherche,田YulingAbstract:网络搜索引擎是一个复杂的信息系统,但大多数研究侧重于具体问题的搜索引擎方面,但他们缺乏对在Web上实现垂直搜索的完整过程的相关研究。了解决这个问题,提出了一种实现三层体系结构的垂直Web搜索引擎的过程,包括数据准备,查询处理和界面交互。Java平台和开源相关工具实现。过此操作,可以查询三层体系结构和实现过程的垂直Web搜索引擎为构建完整的面向主题的垂直搜索引擎提供了理论基础和实用建议。键:2000年以来的网络搜索,搜索引擎实施,垂直搜索引擎架构和机器人介绍从今年年初开始,网络上的垂直搜索引擎开始受到用户的青睐[1? 2]。索视频,音乐,
宁波seo优化图像,软件,发布栏,地图和其他类别,具有更专业性和更相关的主题。而,Web垂直搜索引擎的实现的话题没有限制,并提供了广阔的发展空间,为研究基础产品的电子商务,信息检索和数字化产品微博研究,近年来开始出现。直搜索有两个主要原因:第一,索引所有网页内容的通用搜索引擎变得越来越困难,而垂直搜索引擎索引数据又小又专业,引入成本相对较低;垂直搜索引擎提供更好的搜索,因为它们可以搜索通用搜索引擎无法找到的页面,并在可搜索的页面上提供更强大的搜索功能。直搜索引擎和通用搜索引擎之间的最大区别在于从网页信息中提取结构化信息,即将网页的非结构化数据提取到特定结构化数据。建垂直搜索引擎有两种主要方法:一种是通过浏览特定网页来创建专业索引,另一种是为用户提供专业搜索界面。Web搜索引擎是复杂的多组件信息检索系统的特定应用[3]。建Web搜索引擎很困难,因为它应用于具有极大数据的Internet。多研究人员已经参与了网络搜索引擎研究,包括布林和佩奇,他们首次发布了谷歌大型网络搜索引擎的原型[4],并提出了核心引擎组件Web搜索工具包括爬网程序和索引组件。搜索组件,分拣系统和返回组件。Soumen和他的同事提出的聚焦爬虫[5](聚焦爬虫),其使用分类器来评估网页是否与给受试者。与预定义主题相关联的页面的分析允许进行关注目标的分析。献[6]开发了一种潜在语义索引的分类器,它将链接分析和文本内容结合起来捕获特定领域的Web文档。献[7]设计并实现了一个基于网格架构的大型网络搜索引擎,描述了实现过程及其细节,为搜索引擎研究提供了宝贵的经验。直。息检索领域的搜索结果对于网络搜索引擎具有很大的参考价值,特别是对搜索模式的研究,因为网络搜索引擎的排序组件的质量决定了主要是用户体验。息搜索模型已经迅速发展,包括布尔,向量,概率和语言模型。代恢复模型的建立主要通过排序学习方法实现,该方法使用机器学习技术在数据集上自动创建排序模型[8]。中许多搜索结果都是通过开源软件获得的,开源软件不仅为软件开发提供了先进的技术支持,而且还显着缩短了开发周期。文档提出了一种实现垂直Web搜索引擎的过程,该过程能够开发垂直Web搜索引擎以搜索有关移动电话的信息,并定义实现原理和细节。垂直搜索引擎可以为搜索移动电话信息的用户提供直观,快速和有效的移动电话信息检索服务,并验证该实现过程的效率和完整性。现垂直Web搜索引擎垂直Web搜索引擎类似于通用搜索引擎:两者都必须从Internet下载网页,创建索引并响应用户查询。垂直搜索引擎可以返回手动分析的结构化数据并组织到数据库中。文将垂直Web搜索引擎的实现过程分为三层:数据准备层,查询服务层和前台交互层。三层可以彼此独立地开发,并且可以集成以形成完整的垂直搜索引擎。1说明了垂直垂直网络搜索引擎的实现。据准备层数据准备层的目的是准备用于检索的数据,该数据最终存储在关系数据库中,并创建倒排索引。直网络搜索引擎旨在为用户提供基于大量专题数据的更专业的主题搜索服务,数据处理分为两个阶段。一阶段是收集原始数据。始数据来自一些具有可靠数据源的互联网最主题网站。始数据主要是未经处理的未经处理的网页,这些网页无法支持搜索服务并将其发送回用户进行咨询。二步是分析和处理数据,将原始非结构化网页的数据转换为结构化数据,并将结构化数据存储在关系数据库中,存储在数据库中的数据为最终以更直接的形式向用户显示。是,关系数据库中的模糊查询很难通过大数据查询来处理。此,需要建立面向词汇的数据结构,即反向索引,以获得毫秒级的查询性能。据准备层主要包括以下五个过程:选择主题的网站和源信息页面,仔细选择主题网站获取专题信息,以确保数据的可靠性。源;一般来说,遵循以下四个原则:源网站不会阻止对网页的抓取;网页的内容不是由JavaScript动态生成的。虫不需要模拟浏览器来解释脚本来生成网页的内容,否则会严重影响其有效性:网站上的网页的网址具有统一的风格。取工具更容易抓取此类网址,数据更准确。择具有高访问量的已知网站以确保数据源的可靠性。容和网站分析网页旨在浏览网页。确定主题的源网站之后,有必要分析网站的URL结构以准确地找到主题数据。页面通常包含主题中所有子主题的辅助URL,并将这些辅助URL解析为机器人的链接。析方法主要基于人工观察,辅以程序分析。过观察网页第一电平的规则URL,浏览网页的源代码,设计计算机程序以提取辅助URL,并自动提取与节目的开始连接。网页面的目的是下载与本地磁盘上的主题相关联的网页。器人是一种程序,可以使用URL链接自动从Internet扫描网页并在本地下载。些链接也称为“种子”。

擎抓取的结果是使用所有相关的目标网页。载到本地磁盘。析和本地提取网页中的内容保存在数据local.Les文件存储在统一格式的网页的不规则数据,使得它可以存储在数据库中,并建立全文索引。储在数据库中并且格式化索引的数据不能仅存储在文本文件中,否则数据的提取非常繁重。数据存储在数据库中,并使用它以统一的方式管理所有数据,从而显着提高访问速度和安全性。索引擎数据准备过程中最关键的技术是建立索引:用户查询首先访问索引而不是数据库,在索引中搜索关键字,以及返回结果文档的数据库ID,然后在数据库中搜索特定记录。据准备层的任务主要集中在数据收集,预处理,存储和索引上。活动层对用户不可见,最终产品是包含主题的结构化数据和数据的反向索引的数据库。应请求服务层请求服务层首先将用户查询字符串转换为可识别对象,执行预处理,然后将其发送到相应的请求方法进行处理,然后返回与查询字符串对应的数据对象列表。于数据对象的最终列表中,后两个实际应用中,第一反向索引查询获得该请求的所有文档ID pertinents.La时间复杂度是O(1)由于该词典结构倒排索引主要由哈希组成。第二个查询将文档ID发送到数据库引擎,根据文档ID查询所有文档信息,并将所有请求的文档作为对象返回。端交互层前景交互层的焦点主要是为了改善用户的输入和输出体验,主要有两种方式:第一种是自动显示单词列表用户按钮提示,第二个直接显示查询结果的详细信息。
表指示器函数使用异步Ajax响应。onkeyup事件发生时,模糊查询SQL语句被发送到数据库服务器,查询结果列表返回到JavaScript代码。JavaScript修改dom在搜索字段下显示提示列表。询结果表明数据必须是直接的(例如,在数字产品查询的结果中,图像和产品参数直接显示在页面上)。技术上讲,Ajax技术还用于减少改善用户体验所需的时间。直网络搜索引擎基于上述实现过程实现以下基于Web的垂直搜索引擎,以在Java平台上查询移动电话信息。建过程根据三层实现。1,总结并描述了关键技术和实现原理。据准备层被实现为移动信息数据的源网站,并且可能存在多个数据源网站。为一个完整的计算机网站,移动渠道的顶级URL页面是:http://product.pconline.com.cn/mobile/list.shtml分析网站和网站的内容。过显示顶级URL页面的源代码并分析网站的URL链接规则,获得手机信息数据的URL规范如下:手机信息: http://product.pconline.com.cn/mobile/brand/number .html。机图片:http://img.pconline.com.cn/images/product/Number URL规范的目的是确定扫描哪些URL规范。取所有移动品牌的URL链接,并将其用作种子来分析机器人。针对性地探索网页。寻器的条目是检索URL开始链接。的分析结果是下载预计要下载到本地磁盘的HTML和图像等资源。开发使用Heritrix开源机器人框架[9],这是一个开源Java Robot Framework,它维护各种配置界面以定制和扩展爬虫的功能。确捕获目标资源了解Heritrix如何工作,然后在文档中配置和自定义它们。网页扫描和提取的原始网页和图像不能直接使用。

须提取网页中的有用数据并以特定格式保存。过程可称为结构化数据提取。个有效的HTML文件对应一个txt文件。txt文件的内容和文件名具有固定的结构。此开发中,文件名以下列格式指定:“phone name?Template?Time string.txt”。TXT文件内容格式为:1个的值(如操作系统:Android2.2的)的原始网页的网址(如华为)的价格属性1名... ============================编码文件名产品图像结构化提取包含3个过程:一个是文件的I / O操作,可以使用Java.io包完成,另一个来自HTML代码。据从网页中提取。以使用开源分析软件来实现该操作。三个过程是传输图像。过程的目的是映射移动电话信息和图像名称。MD5将对图像的新名称进行编码。到它。HTML元素以嵌套的层次结构组织,称为HTML文档结构。开发使用HtmlParser开源HTML分析库[10],它允许您从HTML页面快速轻松地检索标记节点,文本节点和属性节点的值。似地,在开发过程中使用解析包需要了解其API以及从官方文档派生的调用机制。询,查询的有效性是优越的。是,用户的请求包含许多关键字,这些关键字实际上是字符串格式。果查询关键字直接放在SQL语句中,并且模糊查询匹配关键字被发送到数据库,则数千条记录的效率非常低。此,查询关键字的模糊查询不能直接在数据库上执行,并且查询首先被发送到查询的反向索引。引反转通常使用哈希表存储的词法搜索结构使查询效率非常高。排索引由两部分组成:一部分是字典,另一部分是倒排列表。索引过程中,我们首先使用分词程序创建一个字典,用于在手机上分割信息的文本文件。个字典元素包含指向相应的反向列表的指针。排列表由几个倒置元素组成,并存储倒置元素。档的属性(文档ID,单词的频率,单词出现在文档中的位置)是否包含词汇表。同的分词程序首先将用户的查询切割成几个单词,然后搜索字典以找到相应的倒排列表,根据某个规则合并倒排列表,然后是最后一个列表标识符将文档发送到数据库以查询文档中的所有信息。过来,数据库的结果显示给用户。之,处理用户请求的过程如下:“查询索引”→“获取每个相关文档的数据库ID”→“查询数据库”→ “返回用户”。种类型的查询机制确定机构必须在数据库第一移动电话商店的信息,然后创建索引,创建索引和执行查询,如图2。这种发展, MySQL数据库用于存储数据,Lucene Open Source Text Toolkit用于创建索引[11]。用基于Word的分词模式,以及使用的极其简单的分词算法。行单词分词。词的基于词库的原理是利用最大匹配算法来扫描之前被分割的文本,从辞典比较词的扫描字并确定该字是否被分段,并添加到索引根据一定的相应粒度。此,词的分割之前,相关材料的词汇必须添加到thésaurus.Dans发展,所有的txt文件名,首先分析了,那么所有的手机的名称和不同的模型作为分析词汇单独存储在文本文件中。过简单地在极其简单的单词分词的词汇表中配置文件的词汇表,使用极其简单的分词组件的另一个原因是它实现了标准分词分析器的界面。Lucene,因此它可以直接与Lucene集成[12]。]。查询字符串,相同的字分割程序必须用于段是根据相同的词典règle.Le索引被用于确定是否词汇existe.Si有分割的单词和词汇问题,返回对应于词汇表的反向列表,否则返回空。于多个词汇搜索处理,根据逻辑操作合并反转列表并返回。排列表中的文档排序模型是经典的向量空间模型,文档的TF * IDF值作为向量函数,实际参数可以在Lucene的请求中设置。2查询和查询机制图提供了查询服务层的实现,以提供查询服务作为中间层,在查询引擎的整体引擎中起着非常重要的连接作用。索,接收查询字符串和用户的预处理,然后在索引和数据库中。询相关文档并将其返回给用户。2示出了搜索模块和分词模块一起提供查询服务。实验中,分词模块具有与索引模块和分词模块的模块相同的配置。recherche承担索引查询和数据库的任务,由Lucene提供的搜索模块实现。两个任务都是通过两种方法实现的:查询服务类包含两个方法,返回查询关键字对象和关联的文档列表对象,同时返回查询数据库方法参数是整数。回文档对象的文档ID,如图3所示。端交互层实现了前台交互直接应用于用户的应用层。
加用户体验进出,实现了两个功能:第一个是每次按下按钮时用户邀请关键字列表,第二个是列表结果。要结果直接显示在页面上,包括图像和其他重要属性。开发过程中,列表提示中的数据是从已提取的手机词汇表中派生出来的,这些单词存储在MySQL数据库的表中,为表格设计查询方法参数是用户在按下键后提交的当前字符串。制是向表发送模糊查询并返回一个字符串数组(通常,提示字符串的数量不超过10)。3中的领先的相互作用层用requête.La服务层的方法进行交互由所述用户调用onkeyup事件并发送字符串至服务器,并结束与客户端的呼叫接收Ajax.Le机构Ajax代码返回的字符串数组作为显示数据。JavaScript更改dom的方式将这些字符串显示为输入框下的列表。击搜索按钮时,请求将发送到服务器,前景交互层和中间层之间的交互如图3所示。互通过DWR框架完成Ajax,有效地减少了延迟并可以显着改善用户体验。询(查询)的用户查询和每一页的开始索引号(的startIndex)封装在请求对象,并直接发送到服务层的getSearchResults方法SearchServiceImpl目的请求通过Ajax。方法返回的SearchResults对象包含相关文档。
ID列表,然后将该文档发送ID作为参数传递给getSearchResultById方法来查询数据库,从文档返回的所有信息,并在信息搜索结果对象封装它和对象返回信息搜索结果用于查看用户的前景。结论实验中,几个查询的平均时间是毫秒级,这完成了整个垂直Web搜索引擎的设计目标。证了该实施过程的完整性和有效性。议的三层架构旨在按主题创建垂直Web搜索引擎,通过实现查询移动电话信息并成功交付的垂直Web搜索引擎,提供运营实施解决方案其他Web搜索引擎Web到其他主题。论基础和技术参考。个实施过程利用Java平台的优秀开源软件包,包括可定制的Heritrix索引机器人,HTMLParser Web分析库,Lucene索引和查询工具包, Ajax DWR框架,Spring Bean容器和MySQL数据库。实现提供了强大的支持。文不详细介绍使用这些软件的具体方法和步骤,而是重点介绍实现过程,技术要点和引擎构建方法。

究。于垂直索引数据搜索引擎本身须经导向,相关性和搜索结果的精度为比在普通的搜索引擎更高,以及显示数据的能力得到加强。现有的研究成果中,作者认为未来垂直网络搜索引擎研究的主要方面是:自动结构化数据提取。器人应该能够自动发现并探讨有关在网络上的话题点源,自动评估网站的内容,监视主题网页的变化和更新本地的页面,通过监测,勘探,一自动提取和提取。新操作可提高搜索引擎的灵活性。定义用户。

然自定义搜索引擎已经在理论上得到发展,但它必须继续研究,从理论到实际应用,能够自动识别用户的类型和意图,准确预测用户的需求。户并自动纠正歧义。荐系统和相关的回报得到改善。据的可靠性。Etant donné que les résultats renvoyés par le moteur de recherche vertical sont principalement du contenu lié à un domaine, les résultats renvoyés à lutilisateur doivent en être tenus responsables.Les résultats renvoyés dans les domaines médical, questions et réponses, actualités et universitaires doivent garantir lexactitude de la source de données. Les résultats doivent être spécifiquement examinés automatiquement pour assurer la fiabilité des informations. Lauteur de cet article est Tian Yuling. Références [1] Liu Tianjiao, Zhou Wei, Analyse de létat de la recherche des moteurs de recherche par réseau au cours des dernières années: 2001 à 2010, par exemple [J] .Information Science, 2012 (8): 1192–1195. [2] Wang Wenzhao, Li Wei .Recherche sur le statu quo et développement de moteurs de recherche verticaux [J]. Science de linformation, 2010 (3): 477? 480. [3] Wang Bin. De la recherche dinformations dans le moteur de recherche [J]. Sécurité et rappel des produits, 2009 (4) : 38? 43. [4] BRIN S, PAGE L. Lanatomie dun moteur de recherche Web hypertextuel à grande échelle [J]. Réseaux informatiques et systèmes isdn, 1998, 30: 107 - 117. [5] CHAKRABARTIA Soumen, VAN DEN BERGB Martin, DOMC Byron, Exploration ciblée: une nouvelle approche de la découverte de ressources Web spécifiques [J], Réseaux informatiques, 1999, 31: 1623-1640. [6] ALMPANIDIS G, KOTROPOULOS C, PITAS I. Analyse des liens pour lexploration ciblée: application destinée aux moteurs de recherche verticaux [J], Systèmes dinformation, 2007, 32 (6): 886 à 908. [7] CAMBAZOGLU Barla, KARACA Evren, KUCUKYILMAZ Tayfun, et autres, Architecture dune grille? Moteur de recherche Web activé [J]. Traitement et gestion de linformation, 2007, 43 (3): 609 à 623. [8] LIU Tie? Yan. Apprendre à classer pour la recherche dinformation [J]. Fondements et tendances de la recherche dinformation, 2009, 3: 225. 331. [9] Bai Wanmin, Su Xile. Application de Heritrix dans le moteur de recherche vertical [J]. Age de lordinateur, 2011 (9): 7? 9. [10] Gui Linbin. Extraction dinformations Web hétérogènes dynamiques à partir de HtmlParser Recherche et mise en œuvre [J]. Ingénierie informatique et numérique, 2009, 37 (7): 161? 164. [11] Zhang Jun, Li Luqun et Zhou Rong. Recherche et application dun moteur de recherche basé sur Lucene [J]. Development, 2013, 23 (6): 230-223. [12] Huang Yiwei. Étude comparative de mots croisés chinois mettant en œuvre linterface Lucene [J]. Science and Technology Information, 2012 (12): 246?"
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波seo网站优化
宁波网站seo
宁波网站seo优化
宁波网络seo
宁波网络seo公司