在这节关于互联网搜索引擎原理的课程中,我们将了解搜索引擎如何对结果进行分类、描述和评估。
排序结果
让我们想象一下目前在搜索服务器上准备好的一个成品桶。我们的第一个搜索查询来自于用户,现在我们需要做第一个 "粗略 "的排序,这将会进一步完善。
让我们来看看下面的输入查询样本。
[O (and) pejskovi (and) a (and) kočičce]
是的,这就是搜索服务器从用户那里收到经过处理的查询的形式,现在等待结果的返回。我们总共只有不到…
在今天的课程中,我们将讨论数据桶、其结构、StopSlovas,最后我们将描述爬虫。
数据桶
这是一种特殊的数据类型,同时驻留在多个服务器上的多个副本中。通常,这些都是数据密集型文件,大小达数百GB,读取速度很慢(这就是为什么它们被分割成若干部分),而且几乎不可能编辑。如果我们想做哪怕是最小的改变,我们必须重新计算整个桶。例如,搜索引擎Seznam最多几天或几周就能重新计算一次数据桶,而谷歌则是几小时就重新计算一次(而且只是一些部分,从来没有一次全部计算过)。…
在今天的课程中,我们将看一下互联网上的索引和规范化文件。
编制索引
索引过程是由一个称为索引器的组件执行的。这是一个专门设计的程序,将下载的数据(爬虫下载的数据)变成一种特殊的数据类型,用于搜索--桶。
索引的问题是,你不能 "聪明地 "浏览文件,但顺序阅读(从头到尾阅读整个文本)是不可避免的,所以这是一门要求很高的学科,搜索引擎使用最强大的服务器来进行这项活动。在搜索过程中,没有其他任务像索引那样要求高,纯文本变成索引。…
每秒钟都有500万个新网页被添加到互联网上,而且这个速度还在不断增加。为了给这个巨大的信息海洋提供一些秩序,并在其中找到一些东西,就有了搜索引擎。下面的工作旨在介绍搜索的问题,并解释从创建一个新网页到在搜索引擎中找到它的整个过程。
寻找和整理一组数十亿的文件的任务并不容易。仅谷歌就需要30万台网络服务器来处理这项任务,只需几个小时。事实上,在你提出问题之前,对你的询问的搜索就已经发生了。谷歌已经将你在未来几天要求的搜索结果储存在其内存中。
搜索引擎架构
。…