arcgis 空间分析

Posted in 开发日志 on March 6th, 2010 by laomi – Be the first to comment

最近在这边实习的主要工作是做数据挖掘的工作,自己以前在实验室也做了一些类似的工作,但是以前的工作相对来说比较简单。目前自己主要做的事情首先就是利用spatial analyze部分分析数据,看看目前自己所用所的数据特征,然后再决定做什么。

关于arcgis spatial analyze的部分主要包括以下几个:在这里面有不少你常常用来做数据分析的工具,例如点密度分析,均值和方差分析,栅格图的差值以及表面分析等。最近我收到有一些数据要做一些空间的处理,如果有过的东西自己来写程序也不是很难,但是已经有了现成的工具干嘛不用,况且只是用这些工具来分析一下这些数据适合做些什么处理。在做这些数据处理的工作中,自己主要是用到了空间分析中的点密度分析,对于计算出来的栅格数据对他们进行均值和方差的计算,后来主要是用了spatial statistic中的一些工具来判断自己的数据是不适合做聚类分析等,其实在spatial statistics中有很多关于计算聚类的工具比如:analyzing pattern中的一些工具,不知道熟悉arcgis arcmap工具的朋友们知道不,在arcgis arctool box中有很多的工具是可以看到他们的python代码,其实这些也是学习用arcgis 来做开发的一些很好的资料。这次自己也用vba开发了一些arcgis的程序的运用,主要用来将最后的计算结果以更好、更形象的方式展现出来。

自己以前对于arcgis还是挺排斥的,我想主要原因有:第一在刚刚接触gi产品的时候,自己第一个接触的产品时mapinfo,而且mapinfo在界面设计方面确实是做的非常的人性化,自己从一用上它就喜欢它了;第二的主要原因是arcgis功能很强大,很多的功能需要经过专业的培训才能很好的掌握,但是自己在平常的项目中,用到得GIS得功能相当的简单,用maoinfo基本上就能解决了,所以自己也不是很想去接触arcgis,毕竟平常没有那么多的时间去接触他。但是来这边实习之后,自己慢慢的发现arcgis的强大之处,它的强大确实是超出了我的想象范围,现在自己确实认为他是一个很不错的GIS工具,但是想很好的掌握这个工具还得花些时间去弄清arcobject,现在自己只是接触了arcobject中很少,比较简单的部分。 read more »

寒假结束

Posted in 心情日志 on February 23rd, 2010 by laomi – Be the first to comment

明天晚上就要坐上回北京的火车了,回北京的火车票真的是很不好买。本来计划在家好好的弄弄arcgis和自己的一些事情,到头来还是什么都没有弄,感觉自己有时候话说的太漂亮了。

这次寒假回家不是在牌桌子上就是在酒桌上,基本上是非常的充实,没有一点的时间去做其他的事情。过年打牌基本上是平手,没有输银子,以前是逢赌必输。今年在家见到了不少很多年没有见到的朋友,挺高兴的,大家还过得都挺好的。在家的前几天基本上是天天下雨,虽然也在外面玩基本上是卡拉OK和茶楼,感觉自己又变胖了,看来自己的减肥又滞后一步了。

和往常一样,回家家里问我最多还是 你什么时候毕业的呀?毕业后有没有工作分的啊?有没有找女朋友的啊之类的问题,我还是和往常一样的去应付他们,自己感觉都有点被问烦的感觉。也许我就是灾星,哪个女人和我在一起必定会受伤,因为自己不想承担责任的吧,感觉自己对待感情总是那么的没有耐心。今年下半年要找工作了,目前自己虽然是有意向,但是自己的研究方向很难进那些单位,我目前的研究方向其实进政府部分和事业单位挺好的。但是自己其实不是很愿意去事业单位,总感觉去那种地方不能伸开拳脚大干一场。

今天由于我哥和嫂嫂要上班,今天就由我带着侄女去学校报名去了,其实自己很不愿意去,因为现在侄女就读的学校是以前的而读书的地方,她现在的很多的任课老师都是以前交我的老师。为了避免遇见熟人,我总是刻意的避开人多的地方走,但是最后还是看见了很多以前教我的老师,他们现在一般都是学校的一些小头目的啦。其实现在这所学校我读书的时候还是挺不错的,现在貌似不是很好的啦,我们以前的宏志班每年上重点线的人数还是挺不少的,但是听我们以前的班主任说现在的宏志班上重点线的人都不是很多。很多的老师都说我发福了,其实这几年在天津自己也确实胖了不少,看来自己减肥得下决心了。上次在天津办的一年的健身卡只去了五次,明年实习结束之后自己要坚持去锻炼。

明年就要上回北京的火车了,这次自己带了不少的吃的都是准备会回去自己做饭的东西,准备在北京好好的弄弄,可以将自己的一些朋友聚在一起玩玩。

最近的一些事情

Posted in 心情日志 on January 17th, 2010 by laomi – Be the first to comment

来这边实习已经有一段时间了,环境已经完全熟悉过来了,我参加的真个team主要是方向是数据挖掘,这个和以前在实验室的工作其实相差也不是很大。在这几周的实习中自己还没有接触到太多的东西,自己也是在根据这边的环境来思考自己的论文的事情。学校老板告诉我实验室那边已经积累了不少的数据,让我可以考虑将那边的东西可以想象怎么做。

按照学校老板的那边的意思我还得了解一下粗擦集的相关的理论知识,那东西我到现在还没有弄明白他到底解决了什么样的问题,如果粗糙集不引进来能不能解决我们现在的问题,或者是粗糙集引进来之后能给我们能解决我们之前解决不了的问题。不过这些问题思考的还是有点早,我还是好好的将我的问题提出来,然后再去想想问题的解决方法吧。

IBM这边的实习环境不错,对于上班时间也没有过分的要求,晚上下班之后还是有不少的人在津津乐道于自己的研究。我在这边来了近一个月的时间,起主要活动是将以前别人做的东西恢复起来,读相关的一些论文以及搭建将来自己要做实验的工作环境。下周的时间可能会比较进展,因为下周有一大堆的数据可能需要进行处理,这些数据的处理方法我也不是很熟悉,这边的数据处理方式和以前我在实验室的还是有些不一样的地方。 read more »

进京了

Posted in 心情日志 on December 26th, 2009 by laomi – 1 Comment

没有想到自己真的进京了,这次在北京实习时间又半年左右,应该能学习到不少的东西。虽然老板说让我尽量能留在那边,但是我觉得先不想这么多的吧,先尽力将手头的事情做好,得到这边公司认可。

其实这次实习的事情自己怕有点胜任不了,毕竟来的还是大公司和以前自己做的小公司还是有很大的不同,刚开始一段时间估计会适应不过来的吧。自己也要开始琢磨一下自己的具体规划问题的了,明年回实验室的时候也差不多要准备找工作的事情了(来这天还有一个条件是就是发一篇论文)。自己好好准备吧,希望在这边的半年中自己有一个很大的提升,并能够借助这次的实习能让自己能够的见识有所提高。

bless me~

向量空间分类

Posted in classifier on November 19th, 2009 by laomi – Be the first to comment

介绍部分

普通的文本分类的方法例如朴素贝叶斯分类的方法,文档的表达方式只是简单的二进制向量(binary vector)的方法,普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无,如果文档中包含的话就是有记为1,文档中没有的话就记为无。举个例子来说明一下,例如有两个一句话文档:

Document 1: China is beautiful.

Document2: USA is a good country.

对于上面的两个文档来说,我可以建档的通过一个表格来表示上面的意思(在表格中的数据就是表示term的有和无,在这里我们讲去掉停词表中的is 和 a)

文档 China USA Beautiful Good Country
Document1 1 0 1 0 0
Document2 0 1 0 1 1

所以对于document1来说他的向量表示为(1,0,1,0,0),对于Document2来说其向量表示为(0,1,0,1,1),但是在信息检索中的计算得分的部分,我们可以知道术语在文档中是有权重的,而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中,也就是有真实值的向量了(有权值了)。

向量空间分类(Vector space classification) 是基于一个假设条件进行了,这个假设是:邻近假设(Contiguity hypothesis)

Contiguity hypothesis: Document in the same class from a continuous region and the regions of different classes do not overlap.

邻近假设的主要意思就是在不同的类型的文档时没有重叠的,且同一类型文档的连续区域中也是没有重叠的。

在向量空间分类中主要分为两种,一种是Rocchio分类,另外一种是k邻近分类(K Nearest Neighbor)。

向量空间的表达其实以前就接触过,向量的表达方式主要是采用词条的权重来描述文档的,在分类方法中,我们常常会使用在平面上以点的形式来描述文档的向量,但是我们知道,真实的文档向量是一个以向量长度作为归一化的、只想球形表面的单位向量。 read more »