[摘要]与普通搜索引擎相比,教育垂直搜索引擎可以帮助学习者更快,更准确地搜索数据。而,出于商业原因,很少公开搜索引擎实现的内部结构和细节,使得搜索引擎开发成为教育技术领域中的困难任务。此,设计了一个垂直的教育搜索引擎框架,并开发了其内部结构。此框架的基础上,开发了用于教育视频的垂直搜索引擎。践证明,该框架可以隐藏很多技术细节,加速特定于教育的垂直搜索引擎的开发。[关键词]教育搜索引擎;教育研究;教育知识基础;垂直搜索[中国图书馆分类] G434 [文件识别码] A [作者]王晓春(1976-),男,辽宁锦州人。讲者,主要从事知识工程和信息研究。子邮件:wang_xiaochun@sohu.com。
言随着Internet技术的发展,信息检索已成为继电子邮件之后第二重要的网络应用。息搜索技术在互联网上提供商机,也为科学技术和教育的发展提供了更有利的条件。生和教师已经开始使用搜索引擎进行知识搜索和基于课程的学习。而,通用搜索系统提供的搜索结果往往过于复杂,这大大增加了用户识别信息价值的可用时间,从而无法满足用户的特定需求。生和老师在学习和准备课程的过程中。生和教师用于学习和备课的搜索引擎应更有针对性,减少学习时间内搜索和导航的比例,提高学生学习效率和老师的准备。直搜索为一般搜索引擎中的这种差距提供了新的解决方案。使用部门信息模型和域功能在收集信息时删除与域无关的信息,并在检索信息时获得更好的查询扩展,[2]以改善召回和搜索结果的准确性。是,最成熟的商业搜索引擎的内部操作原则被认为是商业秘密,工作细节很少公开; [3]有关于搜索引擎系统结构的文章,[4] [5],但大多数都不是最近的文件。有关于教育搜索引擎的研究[6] [7],但他们没有详细描述教育搜索引擎的框架,这使得开发教育搜索引擎很困难。育技术领域。此,本文结合教育领域的特点和研究需求的多样化,研究了教育垂直搜索引擎的框架及其关键技术,为发动机的快速发展提供了解决方案。直研究教育。向教育的垂直搜索引擎框架基于教育的垂直搜索引擎软件框架基于搜索引擎的总体架构,基于教育和知识领域的特点与此相关的,以及用于培训,收集,索引和检索数据的模块的特征。合(如图1所示),涉及内容的存储,例如数据库,反向索引库,教学知识库和查询日志库。学数据收集模块负责根据服务对象和搜索引擎周长收集要索引的内容并将其存储在数据库中。引模块负责使用数据库中的索引对象建立基于反向关键字的文档结构并将其存储在反向索引库中,检索模块负责根据用户请求内容的描述从反向索引库中提取相关内容。利用教学知识库的知识对搜索结果进行分类,并将其呈现给用户,用户是用户与搜索引擎之间的接口;请求监视模块负责记录用户与搜索引擎的交互行为,并将其存储在查询日志库中。后,通过对报纸的探索,提取各种知识并将其存储在教学知识库中以供提取模块使用。立一个特定于域的数据库作为搜索系统,建立数据库是整个开发的第一步,首先要定义系统的服务对象,然后进一步确定可以使用的搜索对象,索引对象,数据采集方法和数据收集知识。统服务对象的确定,即系统服务的基本用户组的确定,属于软件工程领域,将确定系统功能的定位,即搜索系统可以搜索和数据采集模块必须收集的内容以形成数据。书馆是垂直搜索引擎系统成功的关键一步。索对象是指用户正在搜索的内容实体,例如网站,教育网页,文章,教学视频,音频文件,flash文件等。中,视频,音频和其他文件不适合直接用作索引对象,不能直接形成具有结构化和半结构化文档的统一索引结构。果,系统自动收集或记录音频,视频等的半结构化文本描述,使得所有数字教育资源基于文本描述在文档对象模型中统一。结构化,搜索对象保存在相应的文档对象实例中。置链接链接两者以便于索引和搜索。引对象是指搜索对象的半结构化文档描述,其在数据收集期间存储在数据库中。个索引对象由几个字段组成,用于存储索引对象的特征和组成,这有利于索引对象描述的每个组件的相对重要性,并允许在理解查询和排名搜索结果方面提高性能。据。得搜索对象的方式受其自身存储位置和其自身存在形式的限制。于在大多数情况下搜索对象存储在适当的网站上,因此机器人通常将要索引的内容信息下载到数据库中并使用同一网站的网页之间的相似性。

除页面上的广告浪费。[8]对于视频,音频和其他文件,通常没有必要在本地下载它们,只需将其位置链接保存为URL,收集其描述信息生成相应的索引对象并将其存储在数据库中。
果使用Web机器人来收集数据,则约束库变得非常重要,因为它将定义数据集合的范围,主要是以URL列表和主题知识的形式。URL列表主要用于定义Internet上数据收集的起始位置。题知识用于进一步确定特定对象是否属于集合字段。主要由关键字和与加权主题相关的单词描述。们可以由专家提供,但大多数它们之间由机器学习辅助,这可以减少专家的工作量。
关该主题的更深入的了解。果是通过自动学习获得的,则有必要提供所寻求的对象的案例,以及不属于该领域的相应案例,然后通过获取该词来获得该主题的知识。关联词和权重按统计方法,然后存储在约束库中。引及其构建在大规模数据搜索中,索引是提高提取性能的主要方法,是搜索引擎的主要数据结构。下是适用于三个方面的大规模文本检索的索引组件的描述:索引结构,建立过程和更新策略。排索引结构文档,也称为倒排索引,是迄今为止大规模文本提取系统中最有效的数据结构[9],由两部分组成:字典和倒置表(Posting-List)。

典是用户可查询单词的集合,每个字典单词包含倒排列表,倒排列表主要是与存储的单词对应的搜索对象描述的编号,数字和位置在研究主题的描述中的单词。实现中,为了便于索引更新并提高系统的搜索性能,将反转文档存储为反向索引库。个反向索引库由多个索引隔离区组成,每个索引隔离专区包含完整的索引数据。
反向索引库中,包括索引的全局统计信息:版本号,最后修改时间,索引隔离的数量以及索引对象的总数。索引桶中,每个索引桶包含基本信息,例如索引桶名称,索引对象号码库,上次修改时间和桶容量。引,以及三个主要结构:索引桶统计,字典和倒排表。引桶的统计信息包括索引桶中的单词总数,反向索引数据的长度等,主要存储数据库中出现的单词信息的字典,包括包括单词ID,单词全局字频率和倒排表中的数据结构。中的偏移量;倒置表主要包括ID,单词的频率和单词所在的搜索对象的位置信息。新数据进入数据库或第一次创建反转文档时,需要在数据库中索引新输入的搜索对象。引过程如图2所示。

先,从数据高速缓存中读取这些搜索对象描述。数据高速缓存已满或者没有索引搜索对象时,将调用索引对象分析模块。些搜索对象描述执行诸如分词,单词形状恢复,一些语音识别和命名实体识别等操作,然后生成索引词,然后建立反向索引数据结构并暂时存储在索引缓存中,然后在缓存耗尽时传递索引存储组件将数据写入反向索引库中的索引缓冲区上开车。反向索引库的索引隔室达到一个数字时,它们将根据合并规则合并。新策略要求对其上的索引进行持续更新,因为存储库会不断更新。前,反向索引的标准更新方法是现场索引,重建和合并。位索引包括将搜索对象的描述划分为字流并在内存中创建索引。果内存不足,则判断内存中的每个反转表是否相应的磁盘空间是足以放在新的倒置表中。果有足够的空间可用,只需将内存中的倒置表添加到磁盘反转表的末尾,否则请求更多空间,然后复制原始磁盘反转表并添加一个新表。的倒置表,然后释放旧的磁盘空间。构意味着当需要更新索引时,将删除旧索引并为整个数据集重新建立新索引。方法仅适用于小规模数据库,对于大型数据库,效率将非常低。并是磁盘和内存中倒置表的融合。并的结果将写入新磁盘位置以允许更新索引。方法确保反转表是连续的,并且在提取期间仅需要一个磁盘定位操作。验表明,在大多数情况下,再融合方法优于现有系统的其他方法[9]。方法也在本文中使用。复恢复组件是直接与用户交互的组件,是用户可以感知的唯一组件。不仅为用户提供查询输入界面,还显示用户的搜索结果,并记录用户点击搜索结果的行为。个过程如图3所示。先,用户输入表示其搜索意图的关键字并将其提交给查询代理,然后查询代理是否输入查询表达式。户拼写错误,以避免向系统提交错误的请求。检查拼写错误后,系统使用来自教育领域的知识来理解用户查询的意图并生成一组反映用户意图的关键字,然后类似的计算模块使用搜索模式来搜索倒排索引并将质量等级与等级相结合。搜索结果呈现给用户。用户查看搜索结果时,系统遵循交互过程并在日志库中记录查询的行为,这允许执行查询日志分析和探索[10]。取用户对搜索对象的隐式表示法。要模块如下:教育知识库和数据收集阶段使用的集合约束库属于知识库,但两者的角色和粒度不同。合约束库的作用是限制数据收集的范围,数据收集属于域间知识,具有更高的知识水平和更大的粒度。学知识库用于研究的理解和排序,其作用是加强研究对象和用户查询的意图。者之间的相似度计算属于领域知识。识水平较低,粒度较小,这使得查询结果更符合用户的需求。查询理解中定义的域的知识必须能够更准确地将查询的表达式映射到倒排索引的索引元素上。可以根据查询的单词定义不同的权重。
询的上下文并展开一些单词来改进查询。些单词的效果可以更准确地描述查询。此,关键词之间的语义关系的知识必须用于理解查询,最重要的知识是关键词中概念词之间的关系,如下属,同义词,部分整数,等等关键字之间的相关知识可以通过共存概率矩阵来描述,该共生概率矩阵由系统使用机器学习中的统计方法自动计算。索排名中使用的领域知识通常与搜索对象的某个域相关联,例如,标题字段中的关键字通常反映搜索对象的中心内容,因此此区域中出现的关键字必须优于正文。示的关键字具有较高的权重,但是当实现特定搜索引擎以提高搜索质量时,需要调整每个域的相对权重。一个例子是提供学习材料的区域和讲师注册的区域:如果优质学校和优秀教师的名字出现在这些区域,信息非常好,应该是在研究结果中占有一席之地。

前需要了解知识库中教师和学校的卓越水平。习者对学习材料的评估也可以用作排名知识。此,通过总结和使用学习材料质量评估的知识,通过对研究主题,领域和关键词水平给予合理的权重,搜索将更符合用户的心理模型。
询理解请求输入组件充当接收用户搜索请求的系统的组件,允许用户将要搜索的对象描述为自然语言文本。计显示,在超过90%的情况下,用户输入1~3个关键字作为所寻求对象的一般描述。[9]一方面,由于单音节和多词多义的存在,主语之间的相关性,数据库的质量和用户知识的不完整性另一方面,由于在索引系统中使用倒排索引。述关键字和搜索对象之间的对应关系,以便通过查询分析理解用户查询的意图,从而实现查询意图的相应映射在索引列表上反转并使用权重来区分查询的关键字。对重要。查询解释模块中,首先执行查询表达式分析,包括查询语法分析和请求类型识别(如布尔查询,语法查询) ,间隔请求等),在此基础上形成查询语法树。后,查询表达式中的查询词进行分词,命名实体识别,词性识别等,然后生成查询关键词和词。于教学知识库和查询日志分析进行扩展,然后根据查询执行指令。询优化。后,由加权计算组件计算查询关键字权重,以形成一系列具有权重的关键字,以参与倒排索引搜索和排名的计算。似度计算和相似度以及排名排名是搜索引擎系统的核心要素。似性主要反映在查询意图和搜索对象内容的接近度上。名应基于相似性,并且还应考虑搜索对象本身的质量和权限,以便将高质量内容包括在搜索结果列表中。多的是在中间。本文中,基于向量空间模型[11],两者都是集成的。体公式为:其中,百分比(q,d)是搜索对象描述中出现的查询元素的百分比。此,搜索对象的描述中的查询项的数量越高,请求与搜索对象之间的匹配越高。Tf(t in d)是关键字t出现在搜索对象描述文档中的次数。Idf(t)是文档的反向频率。体的计算公式为:其中numDoc是搜索对象的总数,docFeq是搜索对象描述文档中包含关键字t的搜索对象的数量。Boost(t)是查询中t关键字的重要性,可以通过查询分析获得。Norm(t,d)是关键字t对搜索对象d的质量贡献。体公式为:其中,boost(d)指的是搜索对象d的质量得分,
宁波网站优化也可以解释为搜索对象d的权重。示搜索对象的相对重要性。于已知机构和已知教师的教育资料,可以设置较高的初始值;对于来自互联网的数据,可以根据PageRank算法计算[12];对于质量不明确的对象,可能基于用户的评估。大多数情况下,由于时间问题,用户可能不愿意参与评估,但系统可以通过分析搜索对象链接上的点击来执行隐式评估,这也可以提高准确性。LenNorm(f)是指域长度f对tf(t in d)的补偿效应,以避免算法对长搜索对象描述的偏好。体公式为:boost(f):域f的权重,表示搜索对象描述的字段的相对重要性,例如标题字段,汇总字段和正文字段将具有不同的权重。用程序示例使用本文中的基础结构开发系统,我们需要定义和分析以下方面:系统服务对象,搜索对象及其描述方法,数据收集范围,方法评估排名中使用的研究对象和领域知识的质量。于本文的垂直教学搜索引擎框架,开发了一个用于视频教学的垂直搜索引擎系统(如图4所示),其服务对象主要是教师,教师前线和学习者。们可以通过该系统的搜索功能快速访问相关的教学视频资源,减少搜索相关资源所需的时间。们还可以向系统提交教育视频链接和描述,以便学生,同事和专家对他们进行评估,以提高教学质量并提高他们在该领域的知名度。系统的研究对象是视频教学。户调查表明,学习者更喜欢用自然语言描述教学视频,通常与视频教育内容的关键词或主题词相关联,向演示者,到说话者的从属单位。其他相关的功能。令视频的文档格式,持续时间,颜色,灰度,图像质量,音频质量和其他特征用作视频描述描述信息。此,本文不直接索引和检索视频指令文件,而是使用指令视频描述文档作为索引对象来检索它。了便于计算查询与搜索对象之间的相似性,本文将视频描述分为几个字段,如课程名称,演示者,制作单元,介绍,分类,发布时间,评论,视频链接等,以便轻松定义每个域的权重。映域对相似度计算的贡献。教学视频数据收集中,视频所有者向系统提供视频链接和内容描述URL,以便于收集网络爬虫。索引期间,视频的描述被划分为域索引词。视频排名方面,基于相似度计算确定内容的相关性,并基于视频作者,演示者和用户评级的知识,排名计算。成了。于用户评估,系统使用符合用户习惯的10点系统。了避免在一定程度上欺骗分数,系统使用分数和中位数分数来生成总分,并使用蹄(总分)作为相应视频质量的表示,其中c可以根据具体情况而定。整参数,合理调整可以提高排名效果。通学生和一线教师通过该系统提高了学习效率。
频教材使他们能够获得更直观的学习效果。是,系统相对较小,有时不可用。习者想要的资源。一步将是增加教学视频的收集,以进一步提高系统可用性。论由于缺乏对各种搜索引擎的内部结构和实现细节的披露,因此很难在教育技术领域开发搜索引擎。于教育的特点,本文提出了一个垂直的教育搜索引擎框架,并阐明了其内部结构。此基础上,开发了一个用于教学视频的垂直搜索引擎系统,并应用于教师的自主学习网站。À lavenir, nous renforcerons encore la collection de vidéos pédagogiques, utiliserons davantage les moteurs de recherche vidéo et optimiserons davantage les performances de recherche.
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波网络seo
宁波seo网站优化
宁波网站优化推广
宁波谷歌seo
宁波网站seo