互联网搜索引擎的算法

互联网搜索引擎的算法--排序和描述符

在这节关于互联网搜索引擎原理的课程中，我们将了解搜索引擎如何对结果进行分类、描述和评估。排序结果让我们想象一下目前在搜索服务器上准备好的一个成品桶。我们的第一个搜索查询来自于用户，现在我们需要做第一个 "粗略 "的排序，这将会进一步完善。让我们来看看下面的输入查询样本。 [O (and) pejskovi (and) a (and) kočičce] 是的，这就是搜索服务器从用户那里收到经过处理的查询的形式，现在等待结果的返回。我们总共只有不到`300毫秒的时间来做这件…

11. 9. 2016

互联网搜索引擎的算法--几乎没有爬虫

在今天的课程中，我们将讨论数据桶、其结构、StopSlovas，最后我们将描述爬虫。数据桶这是一种特殊的数据类型，同时驻留在多个服务器上的多个副本中。通常，这些都是数据密集型文件，大小达数百GB，读取速度很慢（这就是为什么它们被分割成若干部分），而且几乎不可能编辑。如果我们想做哪怕是最小的改变，我们必须重新计算整个桶。例如，搜索引擎Seznam最多几天或几周就能重新计算一次数据桶，而谷歌则是几小时就重新计算一次（而且只是一些部分，从来没有一次全部计算过）。桶中包含单词和它们在互联网上的出现…

11. 9. 2016

互联网搜索引擎的算法 - 索引和规范化

在今天的课程中，我们将看一下互联网上的索引和规范化文件。编制索引索引过程是由一个称为索引器的组件执行的。这是一个专门设计的程序，将下载的数据（爬虫下载的数据）变成一种特殊的数据类型，用于搜索--桶。索引的问题是，你不能 "聪明地 "浏览文件，但顺序阅读（从头到尾阅读整个文本）是不可避免的，所以这是一门要求很高的学科，搜索引擎使用最强大的服务器来进行这项活动。在搜索过程中，没有其他任务像索引那样要求高，纯文本变成索引。以从维基百科上下载的一个关于猫的页面为例。索引器得到…

11. 9. 2016

互联网搜索引擎的算法--树和StopLead

每秒钟都有500万个新网页被添加到互联网上，而且这个速度还在不断增加。为了给这个巨大的信息海洋提供一些秩序，并在其中找到一些东西，就有了搜索引擎。下面的工作旨在介绍搜索的问题，并解释从创建一个新网页到在搜索引擎中找到它的整个过程。寻找和整理一组数十亿的文件的任务并不容易。仅谷歌就需要30万台网络服务器来处理这项任务，只需几个小时。事实上，在你提出问题之前，对你的询问的搜索就已经发生了。谷歌已经将你在未来几天要求的搜索结果储存在其内存中。搜索引擎架构。一个正确设计的搜索引擎包含许多组件，其…

11. 9. 2016

Newsletter