危机公关

搜索引擎索引:正向索引和倒排索引结构是什么

  • 时间:
  • 浏览:37067

索引就是关键词与网页文件之间的一种对应关系 。所以就存在两种索引:正向索引和倒排索引 。我们知道搜索引擎中使用的是倒排索引  ,有不少朋友并不理解什么叫倒排索引  。这里先来介绍—下正向索引  。当用户进行査询时  ,如果对本地文件全面扫描用户所提交的关键词  ,"查询"的工作量就太大了  ,而且也是很消耗服务器资源的  ,所以搜索引攀会把已经处理过的网页先进行索引  ,放到数据库中等待网民的搜索査询请求  。

一个网页被搜索引擎经过以上处理后  ,就只剩下能够体现网页主体内容的文本了  ,此时就可以对该网页进行索引了 。正向索引指的是文件对应关键词的形式 ,正向索引数据结构简化示意如下图  。

如果使用这种索引直接参与排名  ,则与不分词没有太大区别 ,也需要对所有文件进行检索  ,并且如果用户提交的是长尾词 ,这种索引对文件内容相关度的计算也会非常耗费资源  。

为了使得索引文件可以直接用于排名 ,搜索引擎会把上面的对应关系进行转换 ,做成倒排索引  ,也就是采用关键词对应文件的形式  。倒排索引的数据结构简化如下图  。

这样的索引结构就可以直接应用于搜索排名了 ,比如 ,用户搜索关键词1,那么搜索引擎只会对包含关键词1的文件进行相关度和权重计算;用户搜索"关键词1+关键词2"组合词 ,SEO百度排名 ,那么搜索引擎就会把包含关键词1且包含关键词2的文件调出  ,进行相关度和权重计算 。这样就大大加快了呈现排名的速度 。

倒排索引中不仅仅记录了包含相应关键词文件的ID  ,还会记录关键词频率、每个关键词对应的文档频率  ,以及关键词出现在文件中的位置等信息  。在排名过程中  ,这些信息会被分别进行加权处理  ,并应用到终的排名结果中 。

在SEO操作中 ,SEO自然排名 ,会有相对应的加大关键词频率、尽量使核心关键词出现在网页的前面  , 以及关键词用H标签和变色加粗等着重标识的操作手法  ,SEO百度排名  ,这些都会被倒排索引所记录  ,并参与关键词相关度的计算和搜索排名 。