Posted: February 23rd, 2010 | Author: laomi | Filed under: 心情日志 | Tags: 减肥 | No Comments »
明天晚上就要坐上回北京的火车了,回北京的火车票真的是很不好买。本来计划在家好好的弄弄arcgis和自己的一些事情,到头来还是什么都没有弄,感觉自己有时候话说的太漂亮了。
这次寒假回家不是在牌桌子上就是在酒桌上,基本上是非常的充实,没有一点的时间去做其他的事情。过年打牌基本上是平手,没有输银子,以前是逢赌必输。今年在家见到了不少很多年没有见到的朋友,挺高兴的,大家还过得都挺好的。在家的前几天基本上是天天下雨,虽然也在外面玩基本上是卡拉OK和茶楼,感觉自己又变胖了,看来自己的减肥又滞后一步了。
和往常一样,回家家里问我最多还是 你什么时候毕业的呀?毕业后有没有工作分的啊?有没有找女朋友的啊之类的问题,我还是和往常一样的去应付他们,自己感觉都有点被问烦的感觉。也许我就是灾星,哪个女人和我在一起必定会受伤,因为自己不想承担责任的吧,感觉自己对待感情总是那么的没有耐心。今年下半年要找工作了,目前自己虽然是有意向,但是自己的研究方向很难进那些单位,我目前的研究方向其实进政府部分和事业单位挺好的。但是自己其实不是很愿意去事业单位,总感觉去那种地方不能伸开拳脚大干一场。
今天由于我哥和嫂嫂要上班,今天就由我带着侄女去学校报名去了,其实自己很不愿意去,因为现在侄女就读的学校是以前的而读书的地方,她现在的很多的任课老师都是以前交我的老师。为了避免遇见熟人,我总是刻意的避开人多的地方走,但是最后还是看见了很多以前教我的老师,他们现在一般都是学校的一些小头目的啦。其实现在这所学校我读书的时候还是挺不错的,现在貌似不是很好的啦,我们以前的宏志班每年上重点线的人数还是挺不少的,但是听我们以前的班主任说现在的宏志班上重点线的人都不是很多。很多的老师都说我发福了,其实这几年在天津自己也确实胖了不少,看来自己减肥得下决心了。上次在天津办的一年的健身卡只去了五次,明年实习结束之后自己要坚持去锻炼。
明年就要上回北京的火车了,这次自己带了不少的吃的都是准备会回去自己做饭的东西,准备在北京好好的弄弄,可以将自己的一些朋友聚在一起玩玩。
Posted: January 17th, 2010 | Author: laomi | Filed under: 心情日志 | No Comments »
来这边实习已经有一段时间了,环境已经完全熟悉过来了,我参加的真个team主要是方向是数据挖掘,这个和以前在实验室的工作其实相差也不是很大。在这几周的实习中自己还没有接触到太多的东西,自己也是在根据这边的环境来思考自己的论文的事情。学校老板告诉我实验室那边已经积累了不少的数据,让我可以考虑将那边的东西可以想象怎么做。
按照学校老板的那边的意思我还得了解一下粗擦集的相关的理论知识,那东西我到现在还没有弄明白他到底解决了什么样的问题,如果粗糙集不引进来能不能解决我们现在的问题,或者是粗糙集引进来之后能给我们能解决我们之前解决不了的问题。不过这些问题思考的还是有点早,我还是好好的将我的问题提出来,然后再去想想问题的解决方法吧。
IBM这边的实习环境不错,对于上班时间也没有过分的要求,晚上下班之后还是有不少的人在津津乐道于自己的研究。我在这边来了近一个月的时间,起主要活动是将以前别人做的东西恢复起来,读相关的一些论文以及搭建将来自己要做实验的工作环境。下周的时间可能会比较进展,因为下周有一大堆的数据可能需要进行处理,这些数据的处理方法我也不是很熟悉,这边的数据处理方式和以前我在实验室的还是有些不一样的地方。 Read the rest of this entry »
Posted: December 26th, 2009 | Author: laomi | Filed under: 心情日志 | 1 Comment »
没有想到自己真的进京了,这次在北京实习时间又半年左右,应该能学习到不少的东西。虽然老板说让我尽量能留在那边,但是我觉得先不想这么多的吧,先尽力将手头的事情做好,得到这边公司认可。
其实这次实习的事情自己怕有点胜任不了,毕竟来的还是大公司和以前自己做的小公司还是有很大的不同,刚开始一段时间估计会适应不过来的吧。自己也要开始琢磨一下自己的具体规划问题的了,明年回实验室的时候也差不多要准备找工作的事情了(来这天还有一个条件是就是发一篇论文)。自己好好准备吧,希望在这边的半年中自己有一个很大的提升,并能够借助这次的实习能让自己能够的见识有所提高。
bless me~
Posted: November 19th, 2009 | Author: laomi | Filed under: classifier | Tags: 向量空间模型, 权重, 文本分类 | No Comments »
介绍部分:
普通的文本分类的方法例如朴素贝叶斯分类的方法,文档的表达方式只是简单的二进制向量(binary vector)的方法,普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无,如果文档中包含的话就是有记为1,文档中没有的话就记为无。举个例子来说明一下,例如有两个一句话文档:
Document 1: China is beautiful.
Document2: USA is a good country.
对于上面的两个文档来说,我可以建档的通过一个表格来表示上面的意思(在表格中的数据就是表示term的有和无,在这里我们讲去掉停词表中的is 和 a)
| 文档 |
China |
USA |
Beautiful |
Good |
Country |
| Document1 |
1 |
0 |
1 |
0 |
0 |
| Document2 |
0 |
1 |
0 |
1 |
1 |
所以对于document1来说他的向量表示为(1,0,1,0,0),对于Document2来说其向量表示为(0,1,0,1,1),但是在信息检索中的计算得分的部分,我们可以知道术语在文档中是有权重的,而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中,也就是有真实值的向量了(有权值了)。
向量空间分类(Vector space classification) 是基于一个假设条件进行了,这个假设是:邻近假设(Contiguity hypothesis)
Contiguity hypothesis: Document in the same class from a continuous region and the regions of different classes do not overlap.
邻近假设的主要意思就是在不同的类型的文档时没有重叠的,且同一类型文档的连续区域中也是没有重叠的。
在向量空间分类中主要分为两种,一种是Rocchio分类,另外一种是k邻近分类(K Nearest Neighbor)。
向量空间的表达其实以前就接触过,向量的表达方式主要是采用词条的权重来描述文档的,在分类方法中,我们常常会使用在平面上以点的形式来描述文档的向量,但是我们知道,真实的文档向量是一个以向量长度作为归一化的、只想球形表面的单位向量。 Read the rest of this entry »
Posted: October 31st, 2009 | Author: laomi | Filed under: 开发日志 | Tags: 地名引擎 | No Comments »
目前这个关于地名的搜索引擎叫做地名引擎,按照字面的意思就是按照地名来进行检索,其实这个在其他的网站上也可以看到相关的应用。我们所做的地名引擎的开始目前是为了管理我们实验室的数据,最后发展成为一个以地名为核心的知识系统。
截止昨天为止,我们的地名引擎可以看到的数据有地名的位置、相关的描述以及关于这个地方的相关的应急预案和应急案例信息,目前的功能相对来说比较简单,主要还是直接采用关键字做匹配的。我们实验室关于地名的本体也快发布出来了,今后的地名引擎的主要功能为会围绕着它来做。在接下来的功能中我们将会加入我们现有的一些数据信息来增加关于地名的相关知识,在昨天的讨论中,大家都觉得应该将个性话的部分加进去,所以到时候我还得花点时间来研究一下关于个性化的部分,按照目前关于个性化的数据的收集主要分为两个部分:一个是显式的去收集用户的喜好数据,比如让用户填写自己的兴趣、爱好和自己所从事专业方向,或者是在搜索结果中让搜索引擎去和用户交互;另外一种方式是隐式的去收集用户的数据,一般来说这种方法就是看用户点击了或者是没有点击哪条数据,然后分析用户所感兴趣的文档进行分析用户可能会对那些关键字感兴趣。个性化搜索加进去之后,还可以给用户做一些简单的推荐。 Read the rest of this entry »
Recent Comments