搜索引擎技术的出现对于需要快速发现和定位有关WWW的信息的网络用户来说是个好消息。前,除了WWW上的电子邮件之外,搜索引擎是最常用的服务。前,搜索引擎主要遇到恢复质量差和用户满意度的问题。过分析搜索引擎“天网”的日志,探索用户访问的一般规则,并从分析结果转换搜索引擎。键词:搜索引擎;报纸分析;目录;相关位置DOI:10.11907 / rjdk.143562分类号:TP301文献:A文章编号:1672-7800(2014)012-0041-03作者:方杰(1980-),女,武汉,湖北工业大学商学院硕士,讲师。究方向是计算机技术。言随着WWW的快速发展,互联网上的信息也迅速增长。户的主要问题不是信息不足,而是信息过载。
何有效地帮助人们使用WWW信息资源的大量已成当务之急absolue.La第一个任务是找到用户informations.Les迫切需要WWW导航工具,以帮助他们找到信息他们需要。索引擎是一种信息搜索工具。个重要标准用于衡量查询的质量:“恢复率”和“准确率”
[1] sup>。息检索域中的召回定义是:当您执行给定搜索时,系统检测到的相关文档量与系统数据库中相关文档总量的比率,反映系统数据库中相关文档的数量。恢复了多远。
度报告是返回结果中相关页面与返回结果页面总数的比率。回率主要通过分发动态网页分析和分析来提高。于精确率,由于确定网页是否与用户的主观感觉相关,因此没有一种通用的方法来提高准确性。许用户访问搜索引擎的基本操作包括:提交查询,导航到结果页面,然后单击结果页面中的相应网页。户的查询意图和对结果的满意度反映在这些行为中,这些行为记录在搜索引擎用户日志中。户日志分析可以使用搜索引擎获得用户的基本特征,并基于这些基本特征改进搜索引擎,这可以提高用户的服务质量。索引擎。
索引擎虽然目前有大量的搜索引擎的分类,它们可分为上,他们是基于基于技术原理三种主要类型:基于一个机器人,一个搜索引擎的搜索引擎基于目录(目录或目录)和元类。(Meta)搜索引擎。三种类型的搜索引擎中,元引擎基于第一和第二类搜索引擎。(基于机器人搜索引擎)的搜索引擎的所述第一类型和第二类型的马达(码本搜索引擎)的每一个具有以下特点:(1)基于所述搜索引擎上的收集机械手,分析和自动处理网页以索引网页。量的信息,大量的信息,并定期收集网页更新索引库的内容,并为用户提供在网页上的最新信息的能力。常定期访问大多数先前收集的网页以刷新索引以反映网页的更新,同时还删除一些非活动链接和镜像网页。网页内容的更改将反映在用户查询的结果中,这是基于机器人的搜索引擎的重要组成部分。是,它仅提供关键字搜索。用户确切地知道哪些关键字与网页相关时,查询效果是理想的。则,返回的结果可能与用户的实际需要不兼容。这样的搜索引擎,像谷歌,阿兰达,北极光,激发,Infoseek也是,Inktomi公司,FAST,科思等,天网,百度,优优等代表基于目录的搜索引擎支持基于分类的查询。录搜索引擎使用收集的网页的手动分类,这是一种更准确的理解Web内容的方法。录搜索引擎数据库由专门的出版商或志愿者建立。问一个网站之后,编辑们写网站的描述,它的排名基于网站的内容和性质规定种类,放置网站搜索的网址和说明。
多数信息涉及网站,提供目录导航服务和直接恢复服务。多目录也接受用户提交的网站和描述。
目录发布者批准站点和描述时,它们将添加到适当的类别中。录的用户界面本质上是分层结构。页提供了几个主要类别的最基本条目。户可以访问目录结构层,直到找到感兴趣的类别。外,用户还可以使用由目录提供的搜索功能来直接搜索的单词clé.Ce类型的搜索引擎的添加了人类智力,使结果由用户从搜索获得目录中的内容通常比机器人从搜索引擎获得的内容更多。点是它需要人工干预,大量维护,更少的信息和不合时宜的更新。
用户对某个域感兴趣但不熟悉域关键字时,这种类型的查询可以为用户提供更好的服务。
于手动分类的低效率和更新网页的难度,目录中的搜索引擎在索引页面的规模方面受到相当大的限制。些搜索引擎的代表是雅虎,美国在线等。于目录搜索引擎充分利用了网页的手动收集和分类,因此其大小和更新速度与完整的网页和Internet更新速度相差太远,并且其覆盖范围无法满足用户的需求。索引擎被替换。此同时,搜索引擎机器人基于用户投诉不断倍增,不断提高研究的质量,成为谁想要在网上发现信息互联网用户不可或缺的工具。
前缺乏搜索引擎目前处于第三代搜索引擎的开发阶段,这一代搜索引擎没有单一的目的。必须跟踪Web开发的速度,并为用户提供更快,更准确的查询结果。能,个性化和专业化已成为他追求的目标。第一代搜索引擎技术相比,第二代搜索引擎在各方面都有了很大的提升,但现有的搜索引擎技术仍然无法满足用户的需求。Roper Starch之前的一项调查中,36%的互联网用户花了超过2个小时进行一周的在线搜索,其中71%的人使用搜索引擎时遇到了困难。12分钟平均的研究,研究一度受挫之后,研究46次%的挫折是由于链接错误和互联网用户的86%的人认为应该有一个信息技术的研究更高效,准确。Keen进行的另一项调查显示,人们每天平均有四个问题可以从外部获得答案,31%的人使用搜索引擎来寻找答案,平均每周8.75小时可以找到答案。在线寻找答案,其中一半以上都失败了。该调查数据中不难看出,当前的搜索引擎仍然存在许多局限性。上述提取信息的主要困难是由于传统的搜索引擎仅使用机械关键字匹配来获取信息恢复,没有知识或知识处理能力和理解的事实,那就是,从用户的角度来看,搜索引擎无法以非常普通的方式处理它们。识知识,也无法处理随用户不同的自定义知识。索引擎主要用来向用户提供服务,就必须研究用户行为和使用搜索引擎,这是学习与用户d正确的方式获得用户的一般规则并使用这些规则来执行搜索。引擎的目标是改进。于某些用户(例如经常访问搜索引擎的用户),他们可以查看他们的功能并为他们提供“定制”服务。索引擎用户日志存储用户访问的大量数据,其分析提供了用户访问搜索引擎的一般规则和某些用户的特征。进的性能和测试日志分析Google是典型的搜索引擎 [2] sup>代表,可以访问30亿个文档(包括2,073,418,204页),使用高效的算法和机器资源为用户提供高质量的搜索服务。全国搜索引擎中,代表是由北京大学网络和分布式实验室开发的天网搜索引擎。1997年10月正式在CERNET上建立信息服务以来,它得到了学术界和用户的广泛赞誉。项研究进行了每月报“天网”系统的实验分析,并记录到系统“天网”进行查询的用户访问,翻转页面,然后点击行为,并希望找到行为的规则用户查询。外,还设计了一系列实验来验证搜索引擎缓存的可行性,并测试了几种替代算法。出以下结论:一些天网用户属于长期固定用户。常使用天网,约占天网用户的20%,他们的查询占80%。过30%的用户偶尔使用天网,每月只使用一次。
网的用户在翻页方面行为的分析表明应用visionnaient唯一的内容在第一页的用户超过80%,这表明内容的第一页的形象至关重要搜索引擎。户请求的60%以上都没有点击该页面的结果,宁波seo这意味着用户不满意搜索引擎“天网”返回的结果上。询单词占60%以上,用户查询单词通常为2至4个单词,超过99%的查询单词不出现在词典中。户的查询词,用户点击URL和用户查询词获得的词序高度集中,一些短期相关和长期稳定性。可以考虑请求端的查询字和索引结束字。行高速缓存以提高响应速度,并且分析通过切断查询高速缓存中未触及的查询而获得的单词序列,以研究索引高速缓存的可行性。析表明,单词序列的浓度非常强,少于10%的单词代表80%以上。以看出,索引侧缓存也是非常可行和必要的。行了FIFO,LRU和LFU缓存替换策略的仿真实验,以研究这三种替换算法的成功率。
果表明,LRU和LFU值不高,FIFO略小于两,而且在一段时间的表现来看,FIFO和LRU比乌发好多了。此,从时间效率和成功率的角度来看,LRU是最合适的替代算法。于LRU,其成功率随着缓存容量的增加而增加。缓存容量超过5,000时,其增长趋于适度。以推断,根据当前情况,搜索引擎“天网”的查询大小更适合5000.位置相关分析在分析查询行为时找到两条规则用户:用户的查询词通常较短,2至4个汉字包含多个查询词,长度小于8个字的查询词表示查询词的总数。61.2%。户的查询词通常不是单词,少于1%的查询词是词典词,大多数其他查询词被分成几个词。般情况下,如果用户输入查询词是由2至4个中国字,它必须被发送给搜索引擎,比如“大闳咪店”通过发送频率高用户以及用户希望检索的结果。页面必须包含“存储宏达弥”的网页,但剔除后的宏达弥商店分为四个词“大米+ + +鸿店”和索引子系统将提取“大”和“红”。并后对四个单词“,”“米”和“商店”中的文件进行排序。这种方式返回的结果中包含只有四个字,并不是所有的用户追捧的文件,如果排序考虑到出现的单词数,它不一定是用户的需求。此,当涉及用户查询时,用户必须考虑查询词的单词之间的位置关系,这使得可以设计和实现相关模块。置。果在处理查询时考虑查询词中单词之间的关系,则必须在索引数据库中记录单词的位置,以便在处理单词时对其进行匹配。此,位置相关模块涉及“天网”系统的两个部分:收集子系统。Web爬网程序抓取网页以剪切单词时,记录每个文档中每个单词的位置信息。引子系统。建索引数据库时,单词位置关系也会记录在索引数据库中。时,处理所述查询时,将结果返回应与在由用户输入的查询字的字位置关系,并将文档与相同的相邻关系的字位置关系职位必须排在第一位。置相关模块系统的结构示于图1中。
位置的测试相关性模块结论报纸的分析的结果,天网可以从三个方面进行更改的1结构:添加位置关联模块以提高查询质量。统搜索引擎仅考虑顺序中单词出现的次数,而不管单词之间的位置关系,并且位置相关模块优先于该排序方法。优先考虑用户查询中单词的位置关系,并对与用户请求的单词的位置关系相对应的文档进行分类,从而提高查询的质量。换缓存模块以提高响应速度。的缓存系统是二级缓存结构,分为两部分:查询缓存和索引缓存。求缓存属于请求子系统,容量为5,000.它使用LRU替换算法。
引缓存属于索引子系统,容量为500,具有静态缓存。加自动目录浏览服务以提高用户满意度。目录中的自动导航服务,为用户提供了两个函数级导航和一流的查询,他们可以根据浏览到预定义的类别,以实现利益类别的浏览和查询。束语本文研究用户日志以探索访问的一般规则,并根据研究结果转换搜索引擎。究中还有许多问题需要解决:例如,可以构建实时日志分析平台,可以为平台添加各种分析功能以用于各种目的。析结果轻松快速,分析结果可视化,使结果更直观。时,可以从多个方面修改搜索引擎,添加简单方便的功能,如最近的热点查询,帮助用户了解当前事件,提供关联查询和个性化服务。着网络和多媒体技术的发展,音频,视频和图像将取代文本作为互联网上的主要信息。于内容搜索,个性化搜索和智能搜索引擎的多媒体搜索的发展是一个新的发展方向。
本文转载自
宁波seowww.leseo.net
补充词条:宁波seo排名
宁波谷歌优化
宁波网站排名优化
宁波网络seo
宁波网站优化推广