宁波seo优化专栏

宁波网站优化:科研动态搜索引擎自动分类方法研

发布时间:2019-01-13 00:22:50

  随着搜索引擎应用的不断深入,用户的个性化请求越来越多,对搜索结果的需求也在不断增长。

宁波网站优化:科研动态搜索引擎自动分类方法研究_no.140

  精度垂直域信息的搜索和推荐目前正处于研究领域。现的问题科学研究是研究人员非常关注的一种信息。了提供更有效和准确的科学信息,本文将采用半监督分类方法进行自动分类。学研究信息,用于搜索引擎系统的动态科学研究和动态信息的实现。据用户的需要进行搜索和准确按压,并通过实例检查分类方法的有效性。键词:文本分类;半监督学习;搜索引擎; G254文献标识码:科学研究中图分类号动态的DOI:10.3969 / j.issn.1003-8256.2016.02.006引言随着电子信息技术的飞速发展,信息化办公已经成为主要的作为当今政府,科研机构,企业和机构的一种形式,互联网已成为主要的信息渠道,搜索引擎已成为员工的日常工具。
  用的搜索引擎包括百度,谷歌,必应,雅虎和其他横向搜索引擎。索信息涵盖范围广泛,包含大量可满足各种用户一般需求的信息。而,尽管通用搜索引擎提供了丰富的信息,但它也带来了一些问题,例如结果不准确和效率低[1]。着搜索引擎应用的不断深入,用户的个性化请求越来越多,对搜索结果的需求也在不断增加。
  此,特定域的垂直搜索引擎一直是持续关注的主题,垂直搜索引擎在网页库和子字段中包含某些类型的特殊信息。南提取处理所需的数据,并以允许用户执行更“专业,准确和彻底”搜索的形式将其返回给用户。此,已经创建了许多搜索引擎,例如商店,旅游,汽车,工作,房地产和交友网站[2]。直搜索的行业应用正在变得越来越分散,需求也在增加。术研究机构特别关注科学研究的动态信息,包括各级政府部门发布的科研政策和项目负责人发布的项目指南。解这一点非常重要在适当的时候,科学研究的各种动态对应于研究人员声明的成功。学研究人员关注的网站有数十个(如果不是数百个)。个网站都需要咨询一次,这需要花费很多时间。
  了便于快速方便地访问研究人员的科研信息,我们创建了一个动态搜索引擎,并且可以实现。索并推送科研信息。

宁波网站优化:科研动态搜索引擎自动分类方法研究_no.50

  学研究的动态信息种类很多,其内容也各不相同:为了获得准确的信息,文本分类方法对于输入的信息进行自动分类是必要的。
  精度文本分类模型通常需要大量的注释样本,并且通常需要通过手动注释来实现大量样本样本。需要花费大量时间并且通常很难获得大量的学习样本[3]。
  4]。有一些关于文本分类的研究工作,使用少量标记样本,主要基于半监督学习的分类方法[5,6]。
  文将采用半监督分类方法对科研动态信息进行自动分类,以获得科学研究动态信息的准确信息。研单位动态搜索引擎系统科研单位必须关注技术项目指南,技术奖励申报,科技活动信息等大量动态信息。为了使用网络浏览技术自动收集相关信息,通过网站上相关信息的直接Web Exploration设置;网页信息通常是半结构化信息,通过分析网页结构,提取网页的主要内容,使用NoSql Hbase数据库分发执行分布式存储大量捕获的网页信息;技术,包括中文分词,特征提取,索引和其他技术,宁波网站优化用于快速检索和检索网页信息;基于提取的文本特征信息,利用Web内容并分析其分类,搜索推荐和其他功能;推送邮件的形式为研究人员提供服务。
  态搜索引擎科研系统的结构如图所示。文主要研究搜索引擎中Web内容的自动分类方法,并对科研动态信息进行自动分类。例分析数据来源满足山东省计算机科学研究部门的一般需求:科技部动态搜索引擎科研系统,工业和信息化部,国家自然科学基金和山东改革。
  济南市科技局,济南市经济和信息化委员会等40多个网站的意见中收集了30,000多个数据元素。据用户对科学研究动态信息的不同需求,探索信息分为三类:政策,新闻和项目申报。用本文提出的半监督分类方法,对所收集的信息进行分类和建模,生成动态科技信息自动分类模型,自动分类,共计1000个类别和3000个样本的手工标注。
  近拍摄的动态科技信息。字处理首先,使用中国科学院的ICTCLAS分析工具,对收集的30,000个样本进行分段,分别对标题和正文进行分段,以生成参与矢量8912和15032的大小。据等式(4)计算每个文档的每个标题和正文分词的TF-IDF值,并生成标题和全文文档向量。据单词贡献度计算公式(9),为每个标题和全文向量计算单词贡献度,并且单词分词选择具有最大贡献的300和500个元素作为选择用于文本分类的功能。档分类使用500字分割特征向量,基于3,000个标记样本(包括支持向量机,KNN和贝叶斯网络)形成基于标题的文档分类模型选择,形成全文文档分类模型,包括支持向量机,KNN和贝叶斯网络。于所生成的六种分类模型,使用第3节中提出的半监督分类方法,剩余的27,000个未识别的样本用于形成分类模型,并且未识别的样本被自动分类以生成动态自动分类模型。

宁波网站优化:科研动态搜索引擎自动分类方法研究_no.55

  
  动分类新的分析信息。未经鉴定的样本中,选择1000个进行人工验证,正确的分类率达到85.4%,可满足实际应用的需要。

宁波网站优化:科研动态搜索引擎自动分类方法研究_no.136

  论行业的垂直搜索引擎有望在各个领域得到越来越多的需求,对信息获取的准确性和有效性的要求也越来越重要。获得更多信息有效,准确,人工智能技术应用于研究。动机系统已成为必然。

宁波网站优化:科研动态搜索引擎自动分类方法研究_no.38

  管在该领域进行了许多研究工作,但由于垂直搜索引擎的过度需求,对许多应用领域的需求尚未得到解决。文将半监督学习的分类方法应用于垂直搜索引擎动态搜索系统,解决了从不同用户请求不同信息的问题,并提供了结果。人满意。需要进一步研究的科学研究领域仍存在许多问题,我们期望结合更多的人工智能技术来提高系统性能。
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波网站seo优化  宁波seo推广公司  宁波seo排名  宁波网站排名优化  宁波seo哪家好