Posts Tagged ‘OneRiot’

实时搜索OneRiot

Posted in 江湖消息 on July 25th, 2009 by laomi – Be the first to comment

前段时间老板一直催着我要实时搜索引擎,自己常常不以为然,因为现在炒作概念炒作的实在是太夸张了。但是什么是搜索引擎?直观上理解就是能够及时的在搜索结果中展现搜索相关的最近内容。在The Inner Workings of a Realtime Search Engine中指出:在搜索引擎的用户中,有60%的人用它来寻找特定的信息和导航信息(比如为了查找 rushcj.com等特定的主页信息),其他的40%的人是想知道设个时候发生什么或者是特定的话题最近进展,而实时搜索引擎就能很好的解决这个问题。

对于搜索引擎来说,一般的过程是:先将相关的网页信息从网络上爬去下来,然后对网页的内容进行抽取(对于中文还需要分词),然后建立索引,建立索引之后的索引库就可以给用户进行检索信息的。基于这个过程我们可以知道,用户想要或得实时的数据信息,那么这一过程就必须在比较短的时间内完成,因为之后进入索引库之后的数据才能够被用户检索。 read more »