Posted in 心情日志 on January 17th, 2010 by laomi – Be the first to comment
来这边实习已经有一段时间了,环境已经完全熟悉过来了,我参加的真个team主要是方向是数据挖掘,这个和以前在实验室的工作其实相差也不是很大。在这几周的实习中自己还没有接触到太多的东西,自己也是在根据这边的环境来思考自己的论文的事情。学校老板告诉我实验室那边已经积累了不少的数据,让我可以考虑将那边的东西可以想象怎么做。
按照学校老板的那边的意思我还得了解一下粗擦集的相关的理论知识,那东西我到现在还没有弄明白他到底解决了什么样的问题,如果粗糙集不引进来能不能解决我们现在的问题,或者是粗糙集引进来之后能给我们能解决我们之前解决不了的问题。不过这些问题思考的还是有点早,我还是好好的将我的问题提出来,然后再去想想问题的解决方法吧。
IBM这边的实习环境不错,对于上班时间也没有过分的要求,晚上下班之后还是有不少的人在津津乐道于自己的研究。我在这边来了近一个月的时间,起主要活动是将以前别人做的东西恢复起来,读相关的一些论文以及搭建将来自己要做实验的工作环境。下周的时间可能会比较进展,因为下周有一大堆的数据可能需要进行处理,这些数据的处理方法我也不是很熟悉,这边的数据处理方式和以前我在实验室的还是有些不一样的地方。 read more »
Posted in 心情日志 on December 26th, 2009 by laomi – 1 Comment
没有想到自己真的进京了,这次在北京实习时间又半年左右,应该能学习到不少的东西。虽然老板说让我尽量能留在那边,但是我觉得先不想这么多的吧,先尽力将手头的事情做好,得到这边公司认可。
其实这次实习的事情自己怕有点胜任不了,毕竟来的还是大公司和以前自己做的小公司还是有很大的不同,刚开始一段时间估计会适应不过来的吧。自己也要开始琢磨一下自己的具体规划问题的了,明年回实验室的时候也差不多要准备找工作的事情了(来这天还有一个条件是就是发一篇论文)。自己好好准备吧,希望在这边的半年中自己有一个很大的提升,并能够借助这次的实习能让自己能够的见识有所提高。
bless me~
Posted in classifier on November 19th, 2009 by laomi – Be the first to comment
介绍部分:
普通的文本分类的方法例如朴素贝叶斯分类的方法,文档的表达方式只是简单的二进制向量(binary vector)的方法,普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无,如果文档中包含的话就是有记为1,文档中没有的话就记为无。举个例子来说明一下,例如有两个一句话文档:
Document 1: China is beautiful.
Document2: USA is a good country.
对于上面的两个文档来说,我可以建档的通过一个表格来表示上面的意思(在表格中的数据就是表示term的有和无,在这里我们讲去掉停词表中的is 和 a)
| 文档 |
China |
USA |
Beautiful |
Good |
Country |
| Document1 |
1 |
0 |
1 |
0 |
0 |
| Document2 |
0 |
1 |
0 |
1 |
1 |
所以对于document1来说他的向量表示为(1,0,1,0,0),对于Document2来说其向量表示为(0,1,0,1,1),但是在信息检索中的计算得分的部分,我们可以知道术语在文档中是有权重的,而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中,也就是有真实值的向量了(有权值了)。
向量空间分类(Vector space classification) 是基于一个假设条件进行了,这个假设是:邻近假设(Contiguity hypothesis)
Contiguity hypothesis: Document in the same class from a continuous region and the regions of different classes do not overlap.
邻近假设的主要意思就是在不同的类型的文档时没有重叠的,且同一类型文档的连续区域中也是没有重叠的。
在向量空间分类中主要分为两种,一种是Rocchio分类,另外一种是k邻近分类(K Nearest Neighbor)。
向量空间的表达其实以前就接触过,向量的表达方式主要是采用词条的权重来描述文档的,在分类方法中,我们常常会使用在平面上以点的形式来描述文档的向量,但是我们知道,真实的文档向量是一个以向量长度作为归一化的、只想球形表面的单位向量。 read more »
Posted in 开发日志 on October 31st, 2009 by laomi – Be the first to comment
目前这个关于地名的搜索引擎叫做地名引擎,按照字面的意思就是按照地名来进行检索,其实这个在其他的网站上也可以看到相关的应用。我们所做的地名引擎的开始目前是为了管理我们实验室的数据,最后发展成为一个以地名为核心的知识系统。
截止昨天为止,我们的地名引擎可以看到的数据有地名的位置、相关的描述以及关于这个地方的相关的应急预案和应急案例信息,目前的功能相对来说比较简单,主要还是直接采用关键字做匹配的。我们实验室关于地名的本体也快发布出来了,今后的地名引擎的主要功能为会围绕着它来做。在接下来的功能中我们将会加入我们现有的一些数据信息来增加关于地名的相关知识,在昨天的讨论中,大家都觉得应该将个性话的部分加进去,所以到时候我还得花点时间来研究一下关于个性化的部分,按照目前关于个性化的数据的收集主要分为两个部分:一个是显式的去收集用户的喜好数据,比如让用户填写自己的兴趣、爱好和自己所从事专业方向,或者是在搜索结果中让搜索引擎去和用户交互;另外一种方式是隐式的去收集用户的数据,一般来说这种方法就是看用户点击了或者是没有点击哪条数据,然后分析用户所感兴趣的文档进行分析用户可能会对那些关键字感兴趣。个性化搜索加进去之后,还可以给用户做一些简单的推荐。 read more »
Posted in 开发日志 on October 24th, 2009 by laomi – Be the first to comment
地名引擎的最后的功能还没有完全确定下来,目前确定显示的数据有:应急预案、应急案例、地名的相关介绍性数据和地图数据等。上两个星期自己主要是将程序的主要框架写完了,至于程序框架的合理性问题,目前只能是说按照目前的需求来写,并在此基础之上自己把有可能出现的问题先考虑进去。
其实我们在考虑做地名引擎之前,也看过不少的地名引擎相关的资料,其中也包括Google Maps,Baidu map,mapbar,mapabc和Sogou相关的地图搜索。他们的搜索都做的非常的强大,而且是和人们的生活是密切相关的。我们要做的地名引擎的主要目的是从知识的角度来思考,这个也是我们的地名引擎与现在的GIS搜索主要区别的地方,我们的最终结果是将与地名相关的知识展现出来。目前我们有的数据有地名数据(包括经纬度坐标和相关的介绍数据)、突发事件数据、湖泊数据、人口数据和气象数据等。我们地名引擎做的就是要以地名为主要搜索关键字,将与他相关的信息有组织的形式展现出来。
然而目前界面设计确实是一种很恶心的事情,我们实验室就缺乏这样的一个人,我做的界面大家都看的有点想吐了,颜色搭配太不协调了。不过我一直想想做一个类似于iGoogle那样的界面,而且用户可以根据自己对于信息喜好来管理需要显示的信息。如果用户在查看数据的过程中发现我们的数据有误,用户还能够对出错的数据进行修改,经过审核之后就可以将正确的数据展现出来。 read more »