宁波网站优化:网络化制造资源垂直制造引擎的研

发布时间：2019-02-20 00:21:06

　　本文重点研究了资源研究网络制造垂直网络的汉语词汇和机器人分割技术。过将评估网页模块添加到主题机器人，优先改进对具有高相似性的主题的网页链接的探索，并且提高了爬虫的效率。于中文分词词典的分层存储，借助于中文分词词典的改进配对算法，有效提高了分词的速度和准确性，索引库为减少，这改善了用户的反应。键词：网络制造，制造资源，垂直搜索引擎;页面分析中图分类号：TP393.09文件识别代码：A简介ret有效和准确地恢复制造资源是公司信息和网络的基础。造业的先决条件之一。造网络的心脏是利用网络来弥合不同公司之间的空间差距，充分伸展制造空间，使企业资源之间的共用，优势互补，优化配置组合，从而缩短循环和产品开发成本和整体提高。
　　业链和制造业集团的竞争力[1，2]。而，当前通用搜索引擎提供的搜索难以满足。对特定区域，人口或需求而设计的垂直搜索引擎可以最好地满足这种需求。是一个专业的搜索引擎，只搜索有关网络的特定主题信息，并聚合和索引相关信息，提高用户恢复的准确性和准确性。
　　而，网络环境中制造资源的智能研究和管理仍然很少。家研究主要包括：蔡明，林兰芬等。[3]设计Swirrsm使用网络在原型系统中的制造语义本体推理的支持和，在几个级别提供了一种智能恢复信息模型和完成用户的透明智能检索;张博峰和周传飞等[4]提出了基于组件的软件开发方法的制造资源搜索引擎（MRSE）;张英杰等[5]对网络化制造资源智能管理系统进行了研究。

宁波网站优化:网络化制造资源垂直制造引擎的研究与应用_no.60

　　于制造资源的垂直搜索系统原型的网络设计，系统架构，提出和爬虫，网页分析，中国的分词，索引的设计研究制造资源和回收技术。文档的最后，设计了研究测试用例，并对系统和Nutch测试的结果进行了比较和分析。“系统设计”。1框架设计在全球制造环境中，制造资源管理系统通过选择业务合作伙伴来匹配和选择制造要求与制造能力和资源虚拟机，实现分散制造资源的快速配置和应用[6]。此，实现了网络制造的目标。前，公司通常使用关键字搜索匹配合作伙伴，如Yahoo，Baidu等。是，以这种方式搜索结果非常令人不安。回的大型搜索结果可能会使用户所需的信息不堪重负，从而使用户难以进行搜索。对这种情况，本文档中为网络制造资源设计的垂直搜索引擎可以解决这个问题。

宁波网站优化:网络化制造资源垂直制造引擎的研究与应用_no.132

　　于系统仅包含机器扇区网页并按相似性对其进行排序，因此恢复返回的结果范围将大大降低。有效地提高了系统的准确性并减少了用户的恢复时间。统主要分为两个模块，分析模块和索引模块。
　　索模块包括种子链接的准备和获取，相似性分析等。引模块包括页面分析和中文单词的分割。系统的整体架构如图1所示.机器人主题设计机器人主题是垂直搜索引擎的基础和核心。要增加了相似性分析模块，种子获取模块和基于通用爬虫的排序模块。器人伪代码的主题是：相似度计算机器人主体和机器人正常的本质区别是只有第一个记录的网页与主题相关联，并删除无关网页的话题。如何确定网页与主题的相关性？本文使用向量空间模型方法。取该文件条目并将它对应于向量V特性（d）=（T1，1（d），...，TN，N（d）），其中，ti（i = 1，2， ...，n）对于不相同的元素列表，i（d）是d中ti的权重。算搜索信息中常用术语的权重的方法是函数TF-IDF。见公式（1）：其中N是文档的数量，或包含条目ti的文档的数量，tfi（d）是ti in d出现的频率。高相似性分析的准确性。的组合后，将ωi的加权（d）作为项的功能和两个文件的相似性可通过在载体中的角度余弦的公式来表示，因此，关于该主题，而不影响高频话可除去。和DJ文档之间的相似性可以由式（2）表示：Sim（二，DJ）= = COSΣnk=1ωk（二）×K（DJ）[Σnk=1ω2k（二）] [Σnk=1ω2k（dj）]（2）指定阈值r。cos≥r时，页面和主题被认为是链接的。r的值必须根据经验和实际需要来确定。值将被测试。明增强的RMM算法汉字自动分词是中文信息处理的前提。系统中的页面分析模块和索引模块需要分词技术。的分词的一般技术分为两类[7]：第一类主要是基于词典，词汇对应和词的频率统计。
　　主要包括三个部分：词库（代码），的话分割的算法，该机构的字典，第二类是没有字典的分割，主要基于语法解析和与语义分析相结合，通过分析上下文内容提供的信息。界，这些方法通常不容易实现。常的算法用于破碎词语如下：）的最大匹配方法（MM的基本思想）是如下：设d是字典中，MAX是单词的字符串str和d的最大长度切片。MM法是相匹配的子串长度MAX字d字D.如果成功，则子串是一个字，并继续移动MAX字符后以匹配指针。则，子串连续递减。）最大反向催熟法（RMM）。
　　本原理与MM方法的基本原理相同：不同之处在于词语分词的含义，包括从右到左匹配子串。计结果表明，最大前向对应的使用错误率为1/169，最大反向对应的使用错误率为1/245。RMM方法的准确性远高于MM方法。

宁波网站优化:网络化制造资源垂直制造引擎的研究与应用_no.177

　　系统使用RMM算法。了进一步提高效率，作者设计了一种改进的专业字典存储格式和相应的剪切算法。
　　于该算法，系统根据字典划分专业词，而不分割文档的非专业词。果，分段速度增加并且索引库也被简化以改善对用户的响应。储字典存储本系统中使用的字典是机械行业的专业字典。典采用分层存储[8]的形式，分为三层，如图2所示（每个字母代表一个单词）。
　　一层存储所有单词。二层包含所有双字和前几个字的前两个字。个可表达字是一个系列的第二层，用于存储与所述字前缀所有双字和保存字的下层的最大长度L的节点。

宁波网站优化:网络化制造资源垂直制造引擎的研究与应用_no.0

　　三层一个接一个地存储前面带有双字的所有单词，以便仅减少存储空间而不是双字的部分。
　　用这种存储结构，数据结构简单易行，减少了指针的操作，提高了分词效率。匹配方法因为词典中的最大字长通常大于该部分的字长。了提高分割效率，匹配方法采用连续减去单词的方法。假设根据单词的分词处理C1C2 ... Cn句子。体算法如下:)初始化I = 1，J = 0，STRL是字符串分割;）采取的C n - LJI ... CN-J STRL，调用算法MM判断是否存在;）不存在，那么我++变成2））的存在，那么道道利... CN-J是一款基于网页的文本转换一个字，这个一分为句子和MM算法用于在RMM的基础上判断单词的存在，提高了分词的准确性。详细MM算法步骤：初始化J = 0，I = 1;）取JCI + + J + 1从STRL以确定如果有的话;）如果它不存在，然后次+ j是一个字并返回False）那里取词的较低层的最大长度为n）如果n = 0或1，次+ JCI + J + 1是一个字，返回FALSE;）如果n = 2，则返回True;）否则返回False。始化i = 1，strl是要拆分的字符串; ）从strl中取出CnCn-i来确定它是否存在; ）不存在，所以Cn是一个独特的单词，save，n--，i ++转2; ）存在，取字的下层的最大长度L; ）如果L = 0，则CnCn-i为单词，记录，n-2，转2; ）否则，宁波网站优化取CnCn-i ... Cn-L，判断它存在; ）存在，保存，i = L + 1，n = nL-1转2; ）L-1，如果不存在则转6。算法的主要思想是基于文本网页对句子进行分段，并使用MM算法来确定该单词是否存在于RMM的基础上。于字典的存储格式得到改进，某些单词的速度和准确性得到了保证。引和检索页面后，可以索引索引。

宁波网站优化:网络化制造资源垂直制造引擎的研究与应用_no.157

　　文使用Lucene的开源第三方工具。Lucene是Apache Software Foundation Jakarta Project Team的子项目，这是一个开源全文搜索引擎工具包，提供完整的查询引擎和索引引擎。用Lucene通过Lucene IndexWriter类创建索引时，必须指定要编制索引的文档的目录以及存储索引的目录。外需要注意的是，Lucene自己提供的分词算法需要被替换以满足系统对分词的要求。立索引后，搜索工具由IndexSearcher类创建，并且必须在建立期间定义索引存储路径。后，使用QueryParser.parser（）方法构建Query请求对象，并将其传递给IndexSearcher类的fetch接口以完成查询。里不描述相关细节。前，基于Lucene的应用程序相对成熟，可以找到大量的文献，如"
　　本文转载自
　　宁波网站优化www.leseo.net
　　补充词条：宁波seo外包宁波网站优化推广宁波seo推广公司宁波网站seo 宁波网站排名优化

乐华观点

上一篇：宁波seo优化:优化网站排名有哪些考虑因素?

下一篇：宁波网站优化:从搜索引擎到老虎机