宁波seo优化专栏

宁波seo优化:1000万FTP搜索引擎索引数据库设计方法

发布时间:2019-03-09 00:20:19

  本文档介绍了基于LINUX操作系统的1000万级FTP搜索引擎(Sparrow搜索)的框架,并重点介绍了数据库设计方法。了提高指标恢复和压缩比的效率,他提出了一个具体的方案并给出了实验结果。键词:FTP搜索引擎数据库索引简介FTP搜索引擎是一种用于在Internet上搜索和管理FTP服务器信息资源的恢复机制[1]。据恢复过程不需要搜索Internet,只需提前处理已编译的FTP目录信息数据库。FTP搜索引擎的目的是收集匿名FTP服务器提供的目录列表,并为用户的文件信息提供查询服务[2]。
  相对大量的WWW搜索引擎相比,功能强大的FTP搜索引擎并不常见,限制了对包含大量信息和资源的FTP站点的访问。
  个高速,庞大,功能强大,基于Web的FTP搜索引擎将为网络用户提供极大的便利[3]。据搜索引擎的工作原理,搜索引擎实现过程可以分为三个阶段:从互联网上的FTP目录分析信息→数据库索引→在搜索引擎中搜索索引索引数据库[4]。文重点介绍在创建索引数据库的过程中设计和实现索引。FTP搜索引擎结构Sparrow Search使用独立的搜索引擎,宁波seo优化该搜索引擎有自己的索引数据库,该数据库被提取到本地数据库中,并根据搜索引擎的内容提供相关信息或站点链接。据库。1是FTP搜索引擎的框图。户使用Web浏览器查询客户数据。用户输入搜索关键字并提交它时,Web服务器通过调用CGI程序搜索索引数据库。据收集机器人自动从每个FTP站点提取文件和目录信息,并以特定格式和策略存储它以生成索引数据库。据库索引数据库设计FTP搜索引擎数据库索引设计由三部分组成:原始索引,压缩索引和内置索引。置索引的初始索引的方法采用倒排表技术,即数据库索引设计为反转表的表。符(中文字符)和字符类型的数量决定了反转表文件的数量。个反转的数组文件都以字符(英文或中文字母)命名,每次都会在数据库中显示字符(英文或中文字母)的位置信息,因为某些字符不能用作操作系统中的文件名。
  星号,冒号等一样,Sparrow Search指定只能索引中文字符和某些特定字符,例如:0-9,a-z,A-Z。
  然汉字可以在中文Linux操作系统中用作文件名,但鉴于兼容性问题,中文字符不直接用作文件名,而是16字符代码中文将转换为4位十六进制无符号数。件名这也可以处理不支持中文字符的LINUX操作系统上的中文字符索引。引的结构如图2所示。个索引由32位(4字节)组成。

宁波seo优化:1000万FTP搜索引擎索引数据库设计方法讨论_no.108

  24位用于表示字符ID记录号,低7位用于表示记录的字符位置偏移,第二位用于临时保留。
  以后使用。用户从FTP目录中检索信息时,他想要一种文件类型而不是文件。果用户想找到所有图像文件,这是不实际的他进入图像文件的扩展名,其中分类服务器端的文件,并在FTP图像分割的文件名,视频,音乐,文档,程序等单独索引它们有助于提高恢复效率。多数FTP服务器上的文件名(没有扩展名)或目录名由太简单的字符表示,但用户无法从缺少特征的字符中检索他们想要的信息。如,目录结构/office2000/a/b.exe,只是索引a和b.exe没有多大意义。Sparrow Search中,除文件名本身外,还会为多个外部目录名编制索引。

宁波seo优化:1000万FTP搜索引擎索引数据库设计方法讨论_no.102

  是,如果增加索引的大小,数据库的索引文件将大大增加。实验之后,对于目录名的每个附加索引,索引文件的大​​小将增加至少60%。旦Sparrow Searc太短,它就会使用索引其外部目录名的方法。样,如果外部目录的名称仍然太短,请索引其目录名称,...在极端情况下,索引文件的完整路径。引的压缩存储会增加索引中的字符数,从而增加索引文件的大​​小。使只对文件名编制索引,大量原始信息仍然会对索引文件的存储空间构成严重威胁。

宁波seo优化:1000万FTP搜索引擎索引数据库设计方法讨论_no.67

  实验之后,由1000万条记录生成的索引文件的大​​小超过600 MB,而不压缩或索引文件的相邻外部目录。据法律,大量具有相似名称的文件记录将被组合在一起,因为它们被放置在服务器上的同一目录中,这意味着文件名中的中文字符或字符被重复索引。原始索引结构相比,相同的16位索引可以分组,存储在2个字节中,称为base,2个字节用于存储相同16位索引的数量,即说抵消的总数。N;保存原始索引结构中最后两个字节的内容,即偏移量,为2个字节。引压缩方法的一个例子如图3所示。设四个数字代表索引的四个字节,将索引信息存储在图3的左侧需要32个字节(8个字节) * 4字节= 32字节)并且使用上述压缩算法的存储仅需要24个字节。示例中可以很容易地看出,索引文件越大,压缩率越高。数据库的大小超过10,000个记录时,压缩比通常可以保持在50%以上,在测试中高达60%。
  需要大约300 MB的空间来存储1000万个索引记录。引的内置存储基于恢复性能,将大量反转表索引文件集成到大型索引文件中,然后存储该文件。过程是索引的内置存储。引的集成需要解决两个问题:如何在嵌入文件中找到反转的表文件。于此问题,您可以定义另一个名为Index Header的表,该表指示与每个中文字符或字符对应的索引文件的大​​小以及嵌入文件中的起始位置,即说偏移量。何解决索引头的存储问题。三种方式:一种存储在嵌入式索引文件的头部,第二种存储在内置索引文件的末尾,第三种方式分别存储在文件中。雀搜索采用第三种方法。雀搜索索引文件头实际上是一个64 KB长的数组,每个元素由8个字节组成(即两个无符号长整数),前4个字节表示元素表示的索引文件。后4个字节的大小表示其偏移量。此,索引头的大小始终为512 KB。引字符或中文字符编码(最多16位)用作表中索引定位的索引。

宁波seo优化:1000万FTP搜索引擎索引数据库设计方法讨论_no.165

  就是说,该数组被视为无冲突哈希表(HASH)。然并非所有字符或中文字符都被编入索引并浪费存储空间,但它们可以显着提高对索引的访问速度。冲技术索引生成器由三部分组成:索引生成,压缩和集成。序采用“预取+延迟写入”策略进行磁盘操作,即在程序中打开读写缓冲区。旦缓冲区负载不足,立即读取光盘,在发生过载时立即写入。使得构建,压缩和集成数据库的完整过程比直接写入策略快12倍:在使用缓冲技术之前,处理70,000条记录需要1分钟20秒在缓冲技术之后,70,000条记录的处理时间不到3秒。

宁波seo优化:1000万FTP搜索引擎索引数据库设计方法讨论_no.165

  束语本文介绍了Sparrow搜索引擎数据库的索引生成方法,讨论了遇到的各种问题,并给出了解决方案和实现方法。
  雀搜索用于我们学校的校园网:快速搜索速度,准确性和范围,扩展范围,这不仅可以更容易地在校园内找到用户,还可以节省成本。
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波谷歌优化  宁波网站优化推广  宁波seo哪家好  宁波网络seo  宁波网站排名优化