为了向用户提供个性化的网络信息检索服务,该文档增强了现有的自定义服务模型,并引入了基于自定义词典的搜索引擎查询扩展模型。模板使用特定于用户的字典替换传统的全局字典,并使用查询扩展策略来实现自定义服务。户特定字典可以优化用户的兴趣建模过程,以使其更准确并优化生成的扩展词。用扩展词,用户可以更轻松地检索更符合他们在搜索引擎中的兴趣的网页。验表明,该模型可以为用户提供有效且可通过搜索引擎实现的个性化服务。键词:自定义用户词典;二次向量;查询扩展;个性化服务;搜索引擎中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)28-6764-07知识与信息之间的桥梁。而,随着近年来互联网的快速发展,网络上的信息量也呈指数级增长,常常使用户无法轻易找到所需信息。索引擎的出现在一定程度上解决了对信息检索的需求。前,搜索引擎概念深深植根于人们的心中,已成为在互联网上搜索信息不可或缺的工具。他有以下局限。究结果是巨大的,用户花费大量的时间和精力来寻找真正感兴趣的信息。同用户在不同时间使用查询关键字的相同查询获得的搜索结果几乎相同,并且不能向用户提供自定义服务。户在使用搜索引擎进行搜索时有一定的目的,但往往是因为缺乏对相关用户域的了解以及搜索引擎查询界面的局限性,他无法清楚地表达他的信息需求[2]。于传统搜索引擎无法提供个性化的面向用户的服务的弱点,大量的专家和专家已经开始研究查询扩展技术并在这方面取得了突破。据文献,文献[1]提出本地共生的理念,并使用这个词的共生和本地文档集合的所有单词审讯语料库中的程度以及全球统计信息评估扩展单词的质量并选择适当的扩展名。; 3-5 [3]通过分析用户浏览历史,主要使用关联规则进行查询开发,文献[6],HITS技术和TextRank技术以提取用户的受试者,并且与相关联的发展的组合规则基于双载体描述基于第二级矢量,这也是一个(副载波)的搜索引擎的自定义模型通过浏览用户访问的历史网页和用户输入的请求生成的用户兴趣模型。键字匹配扩展词。过添加大量的话,用户可以得到相应利息或偏好的结果与发动机recherche.Le模型搜索时,具有精度高,响应速度快等优点。查询扩展模型基于用户兴趣模型。献[7]使用第二级向量模型,其通过一组关键字向量描述用户的兴趣。扩展的单词向量。模型基于用户可以浏览的全局字典。群集提取之后生成并描述历史页面。型的完整结构如图1所示。于词汇量太大而且复杂而无法反映用户的兴趣,
宁波seo优化因此全局词典将对用户兴趣模型的生成产生更大的影响。而影响扩大这个词的效果。此,本文使用自定义词典替换全局词典,并使用查询扩展策略来获取自定义服务。还基于搜索引擎的用户个性化词典(QEMBUPDSE)设计了查询扩展模型。模型可以通过自定义词典优化用户的兴趣模型,以优化查询的扩展词,从而使用户的自定义搜索更快,更准确。定义基于字典的搜索引擎查询扩展模板自定义基于字典的搜索引擎查询扩展模板从用户浏览历史网页描述,字典有两个级定义词典中,关键字和字典躺在字的该字典,用于形成Web页面2通过数据挖掘矢量的和水平的描述装置产生更直接矢量模型用户感兴趣的第二级,然后根据用户输入的关键字扩展查询,如图2所示。定义词典的定义和实现根据文献[10],字典用户自定义(UPD)有两个级别:KeyDict和ExDict。级字典单词定义如下:关键字和扩展单词。典的每个级别包含n(n是人工定义的),由词和单词权限组成的双元组。键字通常表示用户对导航的兴趣,并且单词的权重越大,表示用户兴趣的越重要。

展词用于描述用户对兴趣点的兴趣偏好,从而提供与扩展查询时用户的偏好相对应的扩展搜索项。定用户的UPD可以充分表达用户响应信息需求的倾向,同时支持基于辅助向量的兴趣模型。是一个私人字典,符合用户的利益。设计的基本原则如下:在文档集合中,单词出现的频率越高,单词就越能描述用户的特征。含Web文档集合中的单词的网页数量越多,单词就越能描述用户的特征。些最常用的词,也没有研究价值,我们称之为常用词,如评论,版权,项目等,应在字典中过滤不要在用户的个人描述中产生噪音。等式1中,S是网页的集合,T是字的空间,W(T,S)是在S字码T,TF(T,S)的重量的话在字吨的频率在S中,N是包含在S中的网页。数nt是S文档中t次出现的次数,分母是归一化因子。TF-IDF公式中,log(N / nt + 0.01)对应于IDF因子,其对应于“逆文本频率索引”。名称始终用于WTUPD。IDF越大,单词在网页集中的分布就越多。么这个词越重要,重量就越小。反,单词的IDF越小,网页中的分布越密集和均匀,其重要性和重量就越大。
虑到网页集合中的单词分布的均匀度不同,该文档认为网页集合S中单词t的权重与其在网页中的一致性成比例。此,本文介绍了校正单词t权重的一致性度量,它是通过网页集中的标准差t来衡量的,如公式2所示:通过公式WTUPD On可以看出,网页集S中单词t的权重与网页集中单词的频率成正比,并且与网页集中的稀有性和一致性成比例。用WTUPD公式,获得并排序用户查看的网页文本集合中的所有单词的权重,然后基于兴趣的流行度选择关键字扩展单词。
个导航,具有最集中点的用户选择第一个单词作为关键字,其余为。个词是一个扩展名。有更多分散兴趣点(超过5个主要兴趣点)的用户选择前1/2个单词作为关键字,其余为扩展单词以形成关键字词典和扩展词字典。后,还删除了扩展字典中的关键字字典和常用字词:频繁字词的特征分布在网页集合中的大多数文档中,并且单个网页中出现的次数通常较低(通常1至2次)。)。文使用以下方法来过滤单词的这一部分。旦处理了上述公式,就可以最终建立满足用户兴趣描述要求的自定义字典。于自定义词典的用户兴趣建模词的最终扩展取决于用户兴趣的精确模型,并且自定义词典的建立将有助于快速且准确地建立用户兴趣模型。此,本文档中采用的用户兴趣建模方法如下:首先,自定义词典用于将用户访问的网页转换为包含两个级别的特征向量。字典中,所生成的网页的特征向量是辅助向量,例如,网页的特征向量由{[(SLR))表示。0.05327385),(摄影,0.04826857)(像素0.03272436)(行情,0.02713352),(专业,0.02639451),...] [(目标0.01135712)(屏幕0.01023895),(环境,0.09325765))(浏览,0.09031257)(效果,0.08736234)......]},前分号是矢量关键字,然后是扩展的单词向量。下来,网页特征向量用于组分析以获得用户感兴趣的每个子类别。后,使用各种网页特征向量将感兴趣的子类描述为次要向量,以生成用户感兴趣的模型。们看到自定义词典使得整个用户兴趣建模过程使用辅助向量,更直接,更容易地生成用户兴趣模型和字典custom绕过了大量与用户兴趣无关的传统全局字典单词。繁的话让网页更准确的描述,它提供了分类和随后产生的兴趣模型分析了良好的基础,并提供了通过模型对应用户的喜好广泛的词用户兴趣,有利于扩展词的分析和比较。询扩展策略的实现是使分子为向量ci和Qini分量的乘积与分母的和,为模数向量的乘积。文选择与原始查询最相似的C兴趣点作为用户的查询意图。句话说,如果在关键字向量中找不到用户的查询词,即尽可能多地向用户提供查询的扩展词,即假设Qini与关键字向量之间的相似性为0,则扩展单词向量将嵌入关键字向量中。起参与运营。后,为了找到与用户的查询词最相关的扩展词,有必要计算词之间的关联度。考LSI模型方法[7],将一组网页文档表示为“文档 - 字”TD矩阵,如表1所示。1列出了矩阵的拦截“Word文档” TD,顶行显示名称(号)文件的所有文件和收集“欧洲足球”在左栏的范围表示初始查询词Qini提交由用户提供给搜索引擎。“国家队,世界杯,澳大利亚......”是与Qini对应的兴趣类的扩展单词向量中的扩展词。间矩阵单元TDij是文档Dj中对应字Ti的权重(频率)归一化的结果。词和文档的数量很重要,出现在单个文档中的单词非常有限。此,TD通常是罕见的高阶矩阵。后使用TD构造TT词间关系矩阵并计算词之间的相关程度。造方法如式(6)所示:其中TD是TD的转置。果矩阵TT中每个单元的TTij值反映了特定环境(特定用户的特定兴趣类)中单词i和单词j之间的相似性。们可以看到每个单词与其自身的相似性为1,并且在所关注的类的任何文档中的两个单词之间没有相似性为空。表2所示。等式7中,x *表示在词间关系矩阵TT中与初始查询词Qini具有最大相似性的候选扩展词的关联度,并且x表示其他扩展候选词与Qini之间的关联程度。式8的参数[δ]表示x和x *的相对误差阈值,表示只要扩展候选词与Qini和x *的相关度之间的相对误差小于δ,可以最终推荐扩展单词候选。于用户而言,在实际应用中,δ通常需要10%,这使得可以更好地记住扩展字并减少计算时间。
根据情况调整。这种方式,过滤的单词按相关性的降序排序,并且可以推荐给用户。于过多的扩展词会导致搜索结果减少,因此用户将无法获得足够的信息。常,选择3个扩展词,然后您最终可以选择排序的输入词队列的前3个来推荐它们。然,根据用户的需要,推荐的扩展词数量可以由它们自己定义。验和分析评估指标SWUI因为UPD自定义用户词典实际上包含了用户感兴趣的几乎所有单词,并且从浏览历史网页计算的单词权重也反映出来在话用户的兴趣,因此在本文中,我们使用的网页收集的比较与用户的自定义词典寻求的方法进行实验和评估模型的效果本文提供的个性化服务。了将检索到的网页集与用户的自定义字典进行比较,本文计算检索到的网页集合特征向量的中心向量,将中心向量称为UV用户向量(User Victor),然后计算UV和UPD之间的相似性。(余弦函数的值)用于反映网页集合与用户兴趣之间的相关程度。似性称为SWUI(网页与用户兴趣之间的相似性)。验数据该实验基于三个用户:他们根据自己的兴趣浏览网页,然后记录他们感兴趣的网页。后,他们对三个用户提供的感兴趣的网页进行建模,并获得用户的兴趣模型表。据空间的不同,每个感兴趣的类别仅由几个关键字表示。比实验在Google和百度的两个主要搜索引擎中,进行了以下三个实验:没有经验的实验:不使用查询扩展且仅使用用户查询关键字的实验恢复。准经验:使用[7]中提出的SEPMBDVD模型开发查询,然后搜索搜索引擎的经验。于UPD的实验:使用本文中提出的QEMBUPDSE模型进行实验,以开发查询,然后在搜索引擎上执行搜索。较试验由谁提供的用户兴趣模型,每一个选择合适的关键字,其每个利益和三套条款搜索在谷歌和百度的三个用户进行以上实验,每个都用于每个搜索引擎。回的前100页被保存。后,对于每个搜索引擎,网页集合每个关键字和UPD搜索之间的SWUI计算,最后ASWUIIC(网页和用户在每个阶级利益的利益之间的平均相似度)基于每个SWUI计算每个兴趣类,并计算计算公式。等式9所示,等式n,n是某个感兴趣类别的测试关键字的数量。此,ASWUIIC表示特定兴趣类和UPD的所有关键字搜索的网页集之间的SWUI的平均值。终的实验结果如表5所示。了更直观地反映对比效果,本文计算了与无和标准相比,基于UPD的实验结果的增加百分比,如表中所示。6:如表6所示,首先,在使用QEMBUPDSE模型进行查询开发之后,搜索的网页与用户的兴趣比非用户查询扩展更加相关。次,相对于SEPMBDVD模型扩展,使用QEMBUPDSE模型的应用程序的开发之后,流行的网页显示在用户的相关性有所改善,反映了网页更相关的利益用户。主要是因为在用户建模之前使用UPD之后,整个用户建模过程可以在一定程度上进行优化,最终的兴趣模型用户更准确,因此查询的开发可以产生更好的结果。论本文改进的个性化服务模型二次搜索引擎在文献[7]中提出的基础,并增加了一个自定义词典为用户优化建模过程用户的利益,从而改善查询扩展的效果。验表明,基于自定义词典的搜索引擎查询扩展模型可以帮助用户使用搜索引擎更有效地搜索他们感兴趣的信息。接下来的步骤中,我们必须考虑如何建立更精确的自定义词典和用户兴趣模型,并提出计算相似度提高整个自定义搜索模型的性能更好的方法。
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波网络seo
宁波seo网站优化
宁波seo外包
宁波seo推广公司
宁波谷歌seo