江湖消息

语义搜索引擎–yebol

Posted in 江湖消息, 语义搜索 on August 6th, 2009 by laomi – Be the first to comment

关于语义搜索引擎自己总是觉得很虚,每次在网上看到很多关于语义的搜索引擎的介绍。最近有一个又有一篇关于语义搜索引擎的报道,目前只要是看到这种的文章或者是报道,总感觉是在炒作,没人真正的去做语义搜索。

最近又被炒作的语义搜索的叫做yebol的搜索引擎,进入它的首页之后您可以看到”Knowledge Based (Semantic) Search”,但是现在进入系统之后发现已经被改掉了,改为”Knowledge Based (Smart) Search”(可以看到他的about页面还没有改过来)。因为自己这边老板一直吵着要做语义搜索引擎,一般对于关于声称自己是“(基于)语义的搜索”是非常关注的。yebol在介绍自己的时候既然连钱学森都扯到了,无语,目前这个基于知识的搜索引擎(这种说法我承认)采取显示搜索结果的方式还是有些不一样的,他所作的工作就是将搜索结果以分类的形式展现出来。比如在yebol中搜索“Bill Gates”,在返回界面中主要分为几种形式:Relate topic,Top Sites,Categories,Expanded Searches,Images,Vedioes,News,twitter和Search Result等。这种形式的搜索结果的显示方式,从一定的程度上说它组织了信息的显示形式,如果按照yebol中介绍的信息合和知识的主要区别在于:信息是静态的、未结构化的、以数据为中心的,而对于知识来说就是结构化的、按照语义做排序的以人为中心的。从目前的yehol的搜索结果的显示形式和定义来看,yehol它确实可以称之为“基于知识的搜索引擎”。看完它的介绍之后,总后自己还是有点失望,没有说到任何关于语义搜索的意思。 read more »

实时搜索OneRiot

Posted in 江湖消息 on July 25th, 2009 by laomi – Be the first to comment

前段时间老板一直催着我要实时搜索引擎,自己常常不以为然,因为现在炒作概念炒作的实在是太夸张了。但是什么是搜索引擎?直观上理解就是能够及时的在搜索结果中展现搜索相关的最近内容。在The Inner Workings of a Realtime Search Engine中指出:在搜索引擎的用户中,有60%的人用它来寻找特定的信息和导航信息(比如为了查找 rushcj.com等特定的主页信息),其他的40%的人是想知道设个时候发生什么或者是特定的话题最近进展,而实时搜索引擎就能很好的解决这个问题。

对于搜索引擎来说,一般的过程是:先将相关的网页信息从网络上爬去下来,然后对网页的内容进行抽取(对于中文还需要分词),然后建立索引,建立索引之后的索引库就可以给用户进行检索信息的。基于这个过程我们可以知道,用户想要或得实时的数据信息,那么这一过程就必须在比较短的时间内完成,因为之后进入索引库之后的数据才能够被用户检索。 read more »