随着网络信息技术的发展,信息数据量越来越大。然传统的搜索引擎可以检索有价值的信息,但它们的缺点显而易见Web数据挖掘技术是一种将Web服务技术与数据挖掘技术相结合的新兴技术,数据挖掘技术是搜索引擎定制的强大技术。

键词:基于Web的数据挖掘,搜索引擎,自定义应用价值,中图分类号:TP391.41文献标识码:A产品编号:1007-9416(2013)01-0097-01。户获取信息的一个重要方式是Web技术和Web上的信息正在增长,人们不得不花费大量时间搜索和浏览以获取他们想要的信息。索引擎作为广泛使用的信息搜索工具,包括各种领域的技术和理论,如数据挖掘,信息检索,人工智能等。
于Web的数据挖掘技术为搜索引擎定制提供了强大的技术。Web挖掘技术“Web数据挖掘”的缺点是“网络爬行”,包括数据挖掘,Web,计算,计算机语言学在内的完整技术等等本质是从Web活动和Web文档中提取隐藏的,用户感兴趣的信息和可能有用的模板。Web浏览可以应用于许多方面,例如Web文档分类,Web元数据库创建,权威页面确定,搜索引擎结构探索等。
本原则:Web数据挖掘是与Web内容和结构相关的目标数据集的预处理,模型发现和分析过程,是指从基于Web的资源中提取的相关数据。
据用户的需要。处理从目标数据集中删除冗余数据和明显错误的数据,以简化所选数据的有效部分,并将数据转换为活动形式。
据任务的需要,以更有效的方式进行数据挖掘,使用适当的数据挖掘算法,搜索用户感兴趣的数据模块并以简单的形式表达通过适当的方法来理解。过模型分析对发现的模型进行评估和解释,并且如果需要,有必要返回到先前的步骤以重复提取数据。旦完成这些程序,就会向用户提供发现的最新知识。于Web的数据挖掘分为四个主要步骤:业务对象确定,数据准备,数据提取和结构分析,包括Web框架挖掘,Web内容提取和使用记录提取。联规则技术,分类聚类技术,序列模型技术和wev独特的路径分析技术是Web数据挖掘中常用的数据挖掘技术。搜索引擎而言,其工作原理是运行一个Robot程序,该程序根据链接遍历所有网页,将收集的网页放入Web信息数据库,然后对它们编制索引某些规则。果用户将关注主题的关键词输入搜索引擎,则搜索引擎将索引,使用先前建立的词记录网页库,并检索满足搜索引擎需要的条件网页。
户并将其返回给他。

索引擎的组成如图1所示:搜索引擎在“用户功能”中的主要问题如下:准确率低,请求无关信息的结果太重要,经常会出现数百甚至数万个信息的返回现象,并且提供的信息定位不强,显示顺序混乱,有效性也是查询结果的常见问题:搜索结果涉及出版物,广告,新闻等,排名不按信息分类;调查和召回问题也需要紧急解决。搜索引擎中应用Web数据挖掘技术建立兴趣关联规则并在探索客户端Web数据时预测用户行为图2:搜索引擎客户端根据用户提交的请求请求字符串搜索文档。查询在索引数据库中执行,并执行查询内容和文档的相关性的工作,然后对查询的结果进行排序以根据算法显示它们,并实现某种机制。
于用户相关性的反馈。用户浏览网页以查询结果以加速其获取时,可以使用基于Web的智能预取技术。掘技术用于提取,然后在知识库知识数据中设置数据以预测用户行为。存是浏览器中最常用的技术之一:它包含反映用户访问网页时业余爱好的历史数据。www数据模型用于描述缓存区域中的页面链接。据挖掘技术关联规则和www数据模型技术的结合极大地改善了客户的搜索引擎技术。取有效的Web内容并创建简化的索引数据库以执行服务器端Web爬网图3:快速Web页面存储库优化和调整内容爬网基于检索网络蜘蛛收集的网页和网页数据。后,这要求Web Spider程序具有更高的功能。Web Spider程序必须具有基于数据挖掘结果的动态更新功能。据预先给出的数据结构执行数据的过滤和提取。数据挖掘中,网页信息库的值之间的相关性适用于关联分析技术;对应用程序进行分类的方法使得可以分析网页信息数据库的web数据。他数据库中的记录的利用,准确描述和分类也必须应用于分类规则,通过应用分组方法来分析记录在Web信息库中的数据;合理规划记录的收集。定每条记录所在类别的特定分类规则。
此循环过程中,
宁波网站优化高度集成,易于使用和冗余的索引数据库得到改进,并且这样的数据库便于检索和检索用户信息。论由于网络上的信息量非常大并且增长迅速,因此有必要找到满足用户需求的有用信息并优化研究结果仍有许多工作要做。Web挖掘技术在研究应用中发挥了重要作用,需要进一步研究。
考文献[1]朱明。据挖掘[M]。
肥:中国科技大学,2002。
2]陆玉昌。索数据和发现知识[M]成都:西南大学出版社交通,2005。

本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波网络seo
宁波seo哪家好
宁波网站seo
宁波seo优化公司
宁波谷歌seo