地名引擎

Posted: October 31st, 2009 | Author: laomi | Filed under: 开发日志 | Tags: | No Comments »

目前这个关于地名的搜索引擎叫做地名引擎,按照字面的意思就是按照地名来进行检索,其实这个在其他的网站上也可以看到相关的应用。我们所做的地名引擎的开始目前是为了管理我们实验室的数据,最后发展成为一个以地名为核心的知识系统。

截止昨天为止,我们的地名引擎可以看到的数据有地名的位置、相关的描述以及关于这个地方的相关的应急预案和应急案例信息,目前的功能相对来说比较简单,主要还是直接采用关键字做匹配的。我们实验室关于地名的本体也快发布出来了,今后的地名引擎的主要功能为会围绕着它来做。在接下来的功能中我们将会加入我们现有的一些数据信息来增加关于地名的相关知识,在昨天的讨论中,大家都觉得应该将个性话的部分加进去,所以到时候我还得花点时间来研究一下关于个性化的部分,按照目前关于个性化的数据的收集主要分为两个部分:一个是显式的去收集用户的喜好数据,比如让用户填写自己的兴趣、爱好和自己所从事专业方向,或者是在搜索结果中让搜索引擎去和用户交互;另外一种方式是隐式的去收集用户的数据,一般来说这种方法就是看用户点击了或者是没有点击哪条数据,然后分析用户所感兴趣的文档进行分析用户可能会对那些关键字感兴趣。个性化搜索加进去之后,还可以给用户做一些简单的推荐。

关于用户的日志分析来对搜索结果进行优化是目前搜索引擎研究的主要热点,目前分析日志采用的主要方法有Rocchiho的算法。在前天挺英国罗伯特戈登大学的一个教授做了一个关于目前上下文(context 也有人翻译为情景)的信息检索的报告,他里面采用了一种他们自己提出的关联词的方法,他们的论文是发在ACM 的SIGIR上面的,如果自己真的会弄这一块的话,一定得好好读读他们发的论文。

因为在我们的地名引擎中将会涉及到多种数据,面向的用户也是社会上的多种角色,所以我们第一步要做的工作可能相对来说比较简单,让用户去选择他们可能会感兴趣的数据的种类,这样的话可以给用户减少一些干扰数据。其实这样的方法实现起来也比较简单,然后我们会在后台记录下用户的选择的数据类型(其实准备的来说是记录下用户不感兴趣的数据类型,因为用户不感兴趣的类型的数据相对来说是比较好确定的)。对于搜索的词条也会在后台会做记录,方便以后对数据进行分析,提高搜索的覆盖率(召回率)和准确率。

目前的地名输入部分的工作也是比较简单,没有任何提示的方式,所以准备在用户输入的部分加入一些类似于google suggest类型的工作,这样的话以方便用户方便的找到自己要搜寻的地名。

Share and Enjoy:
  • Sphinn
  • Mixx
  • Google Bookmarks
  • Twitter
  • del.icio.us
  • Digg
  • Diigo
  • MSN Reporter
  • Yahoo! Buzz


Leave a Reply

  • Powered by WP Hashcash