<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>信息检索学习</title>
	<atom:link href="http://www.rushcj.com/laomi/feed" rel="self" type="application/rss+xml" />
	<link>http://www.rushcj.com/laomi</link>
	<description>Just learning and thinking</description>
	<lastBuildDate>Sat, 06 Mar 2010 10:38:04 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>arcgis 空间分析</title>
		<link>http://www.rushcj.com/laomi/196</link>
		<comments>http://www.rushcj.com/laomi/196#comments</comments>
		<pubDate>Sat, 06 Mar 2010 10:37:08 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[开发日志]]></category>
		<category><![CDATA[arcgis]]></category>
		<category><![CDATA[空间数据挖掘]]></category>
		<category><![CDATA[gis]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=196</guid>
		<description><![CDATA[最近在这边实习的主要工作是做数据挖掘的工作，自己以前在实验室也做了一些类似的工作，但是以前的工作相对来说比较简单。目前自己主要做的事情首先就是利用spatial analyze部分分析数据，看看目前自己所用所的数据特征，然后再决定做什么。
关于arcgis spatial analyze的部分主要包括以下几个:在这里面有不少你常常用来做数据分析的工具，例如点密度分析，均值和方差分析，栅格图的差值以及表面分析等。最近我收到有一些数据要做一些空间的处理，如果有过的东西自己来写程序也不是很难，但是已经有了现成的工具干嘛不用，况且只是用这些工具来分析一下这些数据适合做些什么处理。在做这些数据处理的工作中，自己主要是用到了空间分析中的点密度分析，对于计算出来的栅格数据对他们进行均值和方差的计算,后来主要是用了spatial statistic中的一些工具来判断自己的数据是不适合做聚类分析等，其实在spatial statistics中有很多关于计算聚类的工具比如：analyzing pattern中的一些工具，不知道熟悉arcgis arcmap工具的朋友们知道不，在arcgis arctool box中有很多的工具是可以看到他们的python代码，其实这些也是学习用arcgis 来做开发的一些很好的资料。这次自己也用vba开发了一些arcgis的程序的运用，主要用来将最后的计算结果以更好、更形象的方式展现出来。
自己以前对于arcgis还是挺排斥的，我想主要原因有：第一在刚刚接触gi产品的时候，自己第一个接触的产品时mapinfo，而且mapinfo在界面设计方面确实是做的非常的人性化，自己从一用上它就喜欢它了；第二的主要原因是arcgis功能很强大，很多的功能需要经过专业的培训才能很好的掌握，但是自己在平常的项目中，用到得GIS得功能相当的简单，用maoinfo基本上就能解决了，所以自己也不是很想去接触arcgis，毕竟平常没有那么多的时间去接触他。但是来这边实习之后，自己慢慢的发现arcgis的强大之处，它的强大确实是超出了我的想象范围，现在自己确实认为他是一个很不错的GIS工具，但是想很好的掌握这个工具还得花些时间去弄清arcobject，现在自己只是接触了arcobject中很少，比较简单的部分。
在实习的接下来的日子里，自己的事情会比较多，因为自己在这边不光是做GIS方面的开发，还需要读空间数据数据挖掘的相关论文，因为实习的最后检验目标就是发一片论文。
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/196/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>寒假结束</title>
		<link>http://www.rushcj.com/laomi/201</link>
		<comments>http://www.rushcj.com/laomi/201#comments</comments>
		<pubDate>Tue, 23 Feb 2010 15:19:35 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[心情日志]]></category>
		<category><![CDATA[减肥]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=201</guid>
		<description><![CDATA[明天晚上就要坐上回北京的火车了，回北京的火车票真的是很不好买。本来计划在家好好的弄弄arcgis和自己的一些事情，到头来还是什么都没有弄，感觉自己有时候话说的太漂亮了。
这次寒假回家不是在牌桌子上就是在酒桌上，基本上是非常的充实，没有一点的时间去做其他的事情。过年打牌基本上是平手，没有输银子，以前是逢赌必输。今年在家见到了不少很多年没有见到的朋友，挺高兴的，大家还过得都挺好的。在家的前几天基本上是天天下雨，虽然也在外面玩基本上是卡拉OK和茶楼，感觉自己又变胖了，看来自己的减肥又滞后一步了。
和往常一样，回家家里问我最多还是 你什么时候毕业的呀？毕业后有没有工作分的啊？有没有找女朋友的啊之类的问题，我还是和往常一样的去应付他们，自己感觉都有点被问烦的感觉。也许我就是灾星，哪个女人和我在一起必定会受伤，因为自己不想承担责任的吧，感觉自己对待感情总是那么的没有耐心。今年下半年要找工作了，目前自己虽然是有意向，但是自己的研究方向很难进那些单位，我目前的研究方向其实进政府部分和事业单位挺好的。但是自己其实不是很愿意去事业单位，总感觉去那种地方不能伸开拳脚大干一场。
今天由于我哥和嫂嫂要上班，今天就由我带着侄女去学校报名去了，其实自己很不愿意去，因为现在侄女就读的学校是以前的而读书的地方，她现在的很多的任课老师都是以前交我的老师。为了避免遇见熟人，我总是刻意的避开人多的地方走，但是最后还是看见了很多以前教我的老师，他们现在一般都是学校的一些小头目的啦。其实现在这所学校我读书的时候还是挺不错的，现在貌似不是很好的啦，我们以前的宏志班每年上重点线的人数还是挺不少的，但是听我们以前的班主任说现在的宏志班上重点线的人都不是很多。很多的老师都说我发福了，其实这几年在天津自己也确实胖了不少，看来自己减肥得下决心了。上次在天津办的一年的健身卡只去了五次，明年实习结束之后自己要坚持去锻炼。
明年就要上回北京的火车了，这次自己带了不少的吃的都是准备会回去自己做饭的东西，准备在北京好好的弄弄，可以将自己的一些朋友聚在一起玩玩。
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/201/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>最近的一些事情</title>
		<link>http://www.rushcj.com/laomi/194</link>
		<comments>http://www.rushcj.com/laomi/194#comments</comments>
		<pubDate>Sun, 17 Jan 2010 02:40:01 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[心情日志]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=194</guid>
		<description><![CDATA[来这边实习已经有一段时间了，环境已经完全熟悉过来了，我参加的真个team主要是方向是数据挖掘，这个和以前在实验室的工作其实相差也不是很大。在这几周的实习中自己还没有接触到太多的东西，自己也是在根据这边的环境来思考自己的论文的事情。学校老板告诉我实验室那边已经积累了不少的数据，让我可以考虑将那边的东西可以想象怎么做。
按照学校老板的那边的意思我还得了解一下粗擦集的相关的理论知识，那东西我到现在还没有弄明白他到底解决了什么样的问题，如果粗糙集不引进来能不能解决我们现在的问题，或者是粗糙集引进来之后能给我们能解决我们之前解决不了的问题。不过这些问题思考的还是有点早，我还是好好的将我的问题提出来，然后再去想想问题的解决方法吧。
IBM这边的实习环境不错，对于上班时间也没有过分的要求，晚上下班之后还是有不少的人在津津乐道于自己的研究。我在这边来了近一个月的时间，起主要活动是将以前别人做的东西恢复起来，读相关的一些论文以及搭建将来自己要做实验的工作环境。下周的时间可能会比较进展，因为下周有一大堆的数据可能需要进行处理，这些数据的处理方法我也不是很熟悉，这边的数据处理方式和以前我在实验室的还是有些不一样的地方。
周五学校的老板来这边办事，顺便中午看了一下我们，因为有两个人出来实习他感觉实验室的人员不是很够了…… 这个让我有点汗死，因为实验室牛逼人实在是太多了，关键是要看老板怎么去使用了。在这边的老板问了我很多以前我在实验室做的工作的问题，他们对于我以前做的工作都比较感兴趣，我把自己以前被老板否定的一些想法也表达出来了，这边的同事到觉得很有意思，有做的价值。这个也许是因为学校和公司的“商业利益”的差别吧，不过对于我来说倒是挺高兴的，因为自己的一些想法得到了认可。
最近自己也常常上网站，看一些新闻，以前一同学和我说现在互联网太黑了，想从互联网创业可能没有那么的简单的了。这个让我想起以前我一同学参加的创业队伍“饭否”，也许很多人都没有听过吧，这个网站刚开始的时候做的确实是不行，但是在09年上半年的时候感觉做的不错了，成为了我每次上去得瑟的网站，自己和周边的一些人都喜欢的，后来7月份的时候不知道什么原因给和谐了。我想这个网站将很有可能像twitter一样，成为中国人喜欢的微博，但是很可惜被和谐了，后来一些新浪等一些开始有微博了，目前饭否还是上不去。扯远了，自己要想创业还早着呢，因为自己首先要解决的生存问题。
在这边上班，同事们之前讨论的最多的问题是房价，这个是国内讨论最热的话题吧，但是对于我来说，有时候真的不想去讨论这个话题，那是因为自己现在还是一无所有。中国人，特别是我们这边80年后的人面临的三座大山：住房、教育、医疗。特别是农村的还是到大城市发展，这个就明显的感觉的出来。其实这里面还可以加入就业，目前国内的就业形势也不是很乐观，别看一些统计数据，都是什么这个大学就业率100%，那个就业率本分之90多的。我记得我本科毕业那年，因为自己的原因一直没有找到理想的工作，所以自己也没有签，那个时候学院里关心的不是你有没有找到好的工作，是你啥时候可以将你的户口迁移出去。我记得我注册的那天，学校明明说户口可以留在学校6年，我还特意问了毕业后是不是可以将户口暂时留在学校。很可惜的是那个时候并没有任何字据可以证明。后来自己觉得考研，不工作了，辅导员就一天到晚的打电话给我，问了什么时候迁移户口，我说户口放在学校得了，最后说学校不让放，多少号之前必须清理掉，我问清理掉是怎么处理，学校的意思是打回老家，那我觉得挺好的，我说就打回老家吧，让我意外的是既然说“打回老家的话，户口被丢的概率很大，那个是你就成了黑市户口了”。学校那个时候让我很无语，最后自己想想还是算了，因为学校为了保障就业率，会烦死你的。据我了解，很多学校所谓的就业率就是这样出来的，所以高校里面的很多统计数据是不值得信任的。
总结一下，自己的最近在这边实习还是挺开心的，下周的工作可能会比较多，接下来自己也会将自己最近所读的论文会慢慢的总结出来，自己的5年目标是准备“筑巢引凤”。
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/194/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>进京了</title>
		<link>http://www.rushcj.com/laomi/192</link>
		<comments>http://www.rushcj.com/laomi/192#comments</comments>
		<pubDate>Sat, 26 Dec 2009 09:03:20 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[心情日志]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=192</guid>
		<description><![CDATA[没有想到自己真的进京了，这次在北京实习时间又半年左右，应该能学习到不少的东西。虽然老板说让我尽量能留在那边，但是我觉得先不想这么多的吧，先尽力将手头的事情做好，得到这边公司认可。
其实这次实习的事情自己怕有点胜任不了，毕竟来的还是大公司和以前自己做的小公司还是有很大的不同，刚开始一段时间估计会适应不过来的吧。自己也要开始琢磨一下自己的具体规划问题的了，明年回实验室的时候也差不多要准备找工作的事情了（来这天还有一个条件是就是发一篇论文）。自己好好准备吧，希望在这边的半年中自己有一个很大的提升，并能够借助这次的实习能让自己能够的见识有所提高。
bless me~
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/192/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>向量空间分类</title>
		<link>http://www.rushcj.com/laomi/178</link>
		<comments>http://www.rushcj.com/laomi/178#comments</comments>
		<pubDate>Thu, 19 Nov 2009 13:39:55 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[classifier]]></category>
		<category><![CDATA[向量空间模型]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[文本分类]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=178</guid>
		<description><![CDATA[介绍部分：
普通的文本分类的方法例如朴素贝叶斯分类的方法，文档的表达方式只是简单的二进制向量(binary vector)的方法，普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无，如果文档中包含的话就是有记为1，文档中没有的话就记为无。举个例子来说明一下，例如有两个一句话文档：
Document 1: China is beautiful. 
Document2: USA is a good country.
对于上面的两个文档来说，我可以建档的通过一个表格来表示上面的意思（在表格中的数据就是表示term的有和无，在这里我们讲去掉停词表中的is 和 a）



文档
China
USA
Beautiful
Good
Country


Document1
1
0
1
0
0


Document2
0
1
0
1
1



所以对于document1来说他的向量表示为(1,0,1,0,0)，对于Document2来说其向量表示为(0,1,0,1,1)，但是在信息检索中的计算得分的部分，我们可以知道术语在文档中是有权重的，而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中，也就是有真实值的向量了（有权值了）。
向量空间分类(Vector space classification) 是基于一个假设条件进行了，这个假设是：邻近假设(Contiguity hypothesis)
Contiguity hypothesis: Document in the same class from a continuous region and the regions of different classes do not overlap.
邻近假设的主要意思就是在不同的类型的文档时没有重叠的，且同一类型文档的连续区域中也是没有重叠的。
在向量空间分类中主要分为两种，一种是Rocchio分类，另外一种是k邻近分类(K Nearest Neighbor)。
向量空间的表达其实以前就接触过，向量的表达方式主要是采用词条的权重来描述文档的，在分类方法中，我们常常会使用在平面上以点的形式来描述文档的向量，但是我们知道，真实的文档向量是一个以向量长度作为归一化的、只想球形表面的单位向量。
Rocchio分类:
主要思想就是找出此文档与每个类型中心点距离，然后再从这里找出与当前文档向量距离最近的类型，这个类型就是这个文档所属的类型。

在上图中，那些类型之间的边缘我们称为类型决策边缘(decision boundaries)，决策边缘就是那些距离那些。
TrainingRocchio(C,D)

For 对于每个类型cj：
begin
 计算出每个类型中所有文档的向量的中心点左边
end
返回所有类型的文档重重点坐标O

AppliyRocchio (d,O)
找出与那些类型文档中心点最近的那个分类
KNN分类：
1NN分类的决策边缘

对于上图中决策边缘是由一些泰森多边形组成的，那图中的那些细线和粗线是怎么得来的呢。这个主要还是依赖于前面说的决策边缘，这个里面的每个点之间都有一个决策边缘，然后粗线部分就是两种不同类型决策边缘。
对于KNN算法来说,K是一个可以变动值，当k=1时，我们就称它为1NN意思就是说从文本数据中找出一个与此文档（需要分类的文档）最相近的一个文档，那么这个类型就是这个文档的类型。那么对于k个文档来说，KNN算法就是从训练数据中找出与当前文档最相近的K个文档，然后再分别计算在这K个文档中，每种类型文档占有的比例，然后找出占有比例最高的那个类型那么此文档就是属于这个类型的。
Train-KNN(C,D)

将文档进行预处理为D’
从文档集中得出参数k
返回处理后的文档集和参数K

Apply-KNN(C,D’,k,d)

从文档集中计算出与d最相近的k个文档的集合Sk
For 对于每个文档cj begin:
计算每种类型的概率
End
返回概率最大的那个类型


总结：
上面介绍的分类方法关于相似度算法都是用欧几里得空间的算法来实现，在实际的处理过程中还可以用其他的相似度算法来实现：余弦值和Pearson等算法。我们知道文档向量的表达中，我们很少会直接使用Term来直接进行处理，对于文本数据来说主要采用词汇来表达，还出清理掉一些停用此表中的词语。在实际的处理过来中，特别是针对网页要对文档进行去掉标签等处理，在中文文档方面还是会使用中文分词技术等等。文本分类是一件很有意义的事情，特别是在信息检索和给予内容的推荐领域（可以通过文档分类获取用户的喜好特征数据）。
注明：
上面的算法和图都来自于：Introduction to Information Retrieval. C.D. Manning, P. Raghavan, H. Schütze. Cambridge [...]]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/178/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>地名引擎</title>
		<link>http://www.rushcj.com/laomi/176</link>
		<comments>http://www.rushcj.com/laomi/176#comments</comments>
		<pubDate>Sat, 31 Oct 2009 07:29:49 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[开发日志]]></category>
		<category><![CDATA[地名引擎]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=176</guid>
		<description><![CDATA[目前这个关于地名的搜索引擎叫做地名引擎，按照字面的意思就是按照地名来进行检索，其实这个在其他的网站上也可以看到相关的应用。我们所做的地名引擎的开始目前是为了管理我们实验室的数据，最后发展成为一个以地名为核心的知识系统。
截止昨天为止，我们的地名引擎可以看到的数据有地名的位置、相关的描述以及关于这个地方的相关的应急预案和应急案例信息，目前的功能相对来说比较简单，主要还是直接采用关键字做匹配的。我们实验室关于地名的本体也快发布出来了，今后的地名引擎的主要功能为会围绕着它来做。在接下来的功能中我们将会加入我们现有的一些数据信息来增加关于地名的相关知识，在昨天的讨论中，大家都觉得应该将个性话的部分加进去，所以到时候我还得花点时间来研究一下关于个性化的部分，按照目前关于个性化的数据的收集主要分为两个部分：一个是显式的去收集用户的喜好数据，比如让用户填写自己的兴趣、爱好和自己所从事专业方向，或者是在搜索结果中让搜索引擎去和用户交互；另外一种方式是隐式的去收集用户的数据，一般来说这种方法就是看用户点击了或者是没有点击哪条数据，然后分析用户所感兴趣的文档进行分析用户可能会对那些关键字感兴趣。个性化搜索加进去之后，还可以给用户做一些简单的推荐。
关于用户的日志分析来对搜索结果进行优化是目前搜索引擎研究的主要热点，目前分析日志采用的主要方法有Rocchiho的算法。在前天挺英国罗伯特戈登大学的一个教授做了一个关于目前上下文（context 也有人翻译为情景）的信息检索的报告，他里面采用了一种他们自己提出的关联词的方法，他们的论文是发在ACM 的SIGIR上面的，如果自己真的会弄这一块的话，一定得好好读读他们发的论文。
因为在我们的地名引擎中将会涉及到多种数据，面向的用户也是社会上的多种角色，所以我们第一步要做的工作可能相对来说比较简单，让用户去选择他们可能会感兴趣的数据的种类，这样的话可以给用户减少一些干扰数据。其实这样的方法实现起来也比较简单，然后我们会在后台记录下用户的选择的数据类型（其实准备的来说是记录下用户不感兴趣的数据类型，因为用户不感兴趣的类型的数据相对来说是比较好确定的）。对于搜索的词条也会在后台会做记录，方便以后对数据进行分析，提高搜索的覆盖率（召回率）和准确率。
目前的地名输入部分的工作也是比较简单，没有任何提示的方式，所以准备在用户输入的部分加入一些类似于google suggest类型的工作，这样的话以方便用户方便的找到自己要搜寻的地名。
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/176/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>界面设计</title>
		<link>http://www.rushcj.com/laomi/172</link>
		<comments>http://www.rushcj.com/laomi/172#comments</comments>
		<pubDate>Sat, 24 Oct 2009 04:41:06 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[开发日志]]></category>
		<category><![CDATA[基于内容推荐]]></category>
		<category><![CDATA[地名引擎]]></category>
		<category><![CDATA[gis]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=172</guid>
		<description><![CDATA[地名引擎的最后的功能还没有完全确定下来，目前确定显示的数据有：应急预案、应急案例、地名的相关介绍性数据和地图数据等。上两个星期自己主要是将程序的主要框架写完了，至于程序框架的合理性问题，目前只能是说按照目前的需求来写，并在此基础之上自己把有可能出现的问题先考虑进去。
其实我们在考虑做地名引擎之前，也看过不少的地名引擎相关的资料，其中也包括Google Maps,Baidu map,mapbar,mapabc和Sogou相关的地图搜索。他们的搜索都做的非常的强大，而且是和人们的生活是密切相关的。我们要做的地名引擎的主要目的是从知识的角度来思考，这个也是我们的地名引擎与现在的GIS搜索主要区别的地方，我们的最终结果是将与地名相关的知识展现出来。目前我们有的数据有地名数据（包括经纬度坐标和相关的介绍数据）、突发事件数据、湖泊数据、人口数据和气象数据等。我们地名引擎做的就是要以地名为主要搜索关键字，将与他相关的信息有组织的形式展现出来。
然而目前界面设计确实是一种很恶心的事情，我们实验室就缺乏这样的一个人，我做的界面大家都看的有点想吐了，颜色搭配太不协调了。不过我一直想想做一个类似于iGoogle那样的界面，而且用户可以根据自己对于信息喜好来管理需要显示的信息。如果用户在查看数据的过程中发现我们的数据有误，用户还能够对出错的数据进行修改，经过审核之后就可以将正确的数据展现出来。学术界常常称这种引擎为知识引擎，其实现在可以找到类似的搜索引擎，例如yebol和wolframalpha ,但是他们的范围都比较广泛，所以相对来说数据组织的不是很好，wolframalpha不支持中文搜索。用户在修改错误的数据的时候，必须得说明自己正确数据的来源，杂志的名称或者是互联网的url地址。在系统中目前还打算预留关于信息推荐的部分，根据用户的搜索记录和用户的浏览记录，将用户有可能感兴趣的信息推荐给用户。
目前我的界面只是做出了一个简单的轮廓，等实验室有了好的前台程序人员的时候，可以和让一起商量关于前天页面的事情。
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/172/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>估计得忙一阵子了</title>
		<link>http://www.rushcj.com/laomi/169</link>
		<comments>http://www.rushcj.com/laomi/169#comments</comments>
		<pubDate>Sat, 17 Oct 2009 12:41:03 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[开发日志]]></category>
		<category><![CDATA[信息检索]]></category>
		<category><![CDATA[地名引擎]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=169</guid>
		<description><![CDATA[自己这一年多来一直忙着实验室的那点项目，说句实话现在做的东西真的是很难投入使用，目前自己的总结原因有：开发氛围不好，简单的来说很多人都没有把这项目当回事（估计老板也差不多），所以从项目管理上很难入手；业务分析不够透彻，做软件产品的话，就必须得好好的分析一下实际情况，我们基本上是凭空想象。最近老板又让我做地名引擎，说句实话，我的兴致很高，就怕哪一天他对这个不感兴趣，我又是瞎折腾了。
目前总体上可以这么说，地图数据我们已经有了，至于这个地名引擎不在于地图本身，其主要是基于地名数据基础之上的。自己大概花了两天的时候好好的将自己要做的东西勾勒了一下，然后将自己第一期要完成的目标也确定了一下，最后定了一下关于地名引擎的技术基础。我们实验室是做应急方向的，所以我们做的地名引擎其主要的还是围绕着应急。关于这个系统我前面的工作主要是将把他当做一个系统来完成，解决问题的方法也主要是从工程的角度来思考（说句实话，在实验室做研究我实在是不怎么感兴趣，因为……）。第一期的主要目的就是将实验室目前的数据以地名为中心展现出来，其主要的开发的环境：
OS:ubuntu8.10
开发语言:java
第三方工具:htmlparser、lucene 2.4
从目前的角度上来说，从网上爬取过来的数据相对来说都比较简单，所以数据抽取部分的工作相对来说就比较简单了。前天自己花了点时间，大概的分析了一下系统的基本功能，根据自己的一些理解之后大概的确定了一下程序的主要框架结构，然后自己用java代码写了一下程序的框架结构。从设计模式的角度来思考的话，目前自己主要是参考了观察者模式。计划在下周六能够直接用lucene将地名的索引先创建出来，然后根据用户输入的地名信息，将把介绍地名的相关数据先展现出来。不过这里面可能会出现一些问题，哪就是搜索条件的扩展问题，目前关于这个问题的解决办法还没有想出来。
现在没有拿到完全的数据，至于根据一个地名到底需要展现多少信息目前来说还确定不了（不知道这个是不是就是他们博士们在讨论的不确定性分析）。为了保证数据展现的精确性，所以在地名处理方面要做的工作还是很多的，比如：如何在一个案例中，描述的信息不够完备的情况下，能比较准确的描述事件发生的地点信息等。
今天只是一个开始，今后将自己在开发地名引擎遇到的相关问题和自己一些思考总结下来，希望能够得到各位高手的指点。
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/169/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>假期快要结束了</title>
		<link>http://www.rushcj.com/laomi/167</link>
		<comments>http://www.rushcj.com/laomi/167#comments</comments>
		<pubDate>Tue, 06 Oct 2009 05:24:13 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[心情日志]]></category>
		<category><![CDATA[基于内容推荐]]></category>
		<category><![CDATA[信息检索]]></category>
		<category><![CDATA[减肥]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=167</guid>
		<description><![CDATA[放假之前做了很多的计划：去杭州，结果晓华离不开工作地方，结果没去；去晓华那里买衣服，最后如尝所愿；去度假村，说实话没钱去那里，我不知道能干什么，最后决定不去；调试c/s程度，结果没做，现在想做实验室没电了；写一份关于基于内容的推荐系统的报告，到现在还没有开笔。做了这么多的计划，最后也就是去了晓华那里，结果在他那里还做了一个奇怪的梦，发现我自己已经很被外面的世界所吸引了，感觉在学校上学越来越没有什么意思了。
放假结束后事情就多了，都是自己一直拖下来的，调试c/s程序，写基于内容的推荐系统报告和老板前段时间让我做的信息检索系统。一想到这些就觉得很累，想睡觉。觉得自己真的是从思想上有点堕落了，也不怎么喜欢看书了，准确的来说看书没有以前的那股激情了，看书也比较浮躁。不知道是季节的原因还是自己浮躁，做什么事情都很难坚持下来。其实自己也明白少了一份坚持，就会多一份失败，如何去约束自己的呢？也有可能是最近和一些朋友和同学聊的关于他们工作事情聊的太多了，以至于自己还是希望早点参加工作，毕竟自己的年龄真的不算小了，读了这么多年的书也读烦了。
昨天晚上自己看了一部动画片《Shool Days》，看完之后感觉有点不爽，结局太惨了，到现在还是有点接受不了结局。自己平常就不怎么喜欢看伦理片（这个动画片片不是伦理片），因为这样的片子结局往往太现实了，也常常很悲伤。记得前段时间一朋友和我说：在结婚前，觉得感情就是一切，因为自己是全心全意爱着他；结婚后，觉得感情只是很小的一部分，因为再也没有恋爱时的那股热情了。对于我来说，我从来都没有把感情看作是我的一切，我的思考问题的方式往往和我年龄段真的有点不符合，这也是别人说我是70年代人的主要原因吧。不知道为什么，在感情这条道路上，我一直很难承担责任，也不知道是不是自己一无所有的原因还是其他的，一旦谈到婚姻问题时，自己往往会刻意的去回避。
假期快结束了，这两天只想好好的静静，把自己好好的调理一下，因为10月份很有可能是我最繁忙的一个月，只能是好好加油了。
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/167/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>推荐系统(2)</title>
		<link>http://www.rushcj.com/laomi/162</link>
		<comments>http://www.rushcj.com/laomi/162#comments</comments>
		<pubDate>Tue, 29 Sep 2009 11:16:57 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[推荐系统]]></category>
		<category><![CDATA[基于内容推荐]]></category>
		<category><![CDATA[协作推荐]]></category>
		<category><![CDATA[混合推荐]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=162</guid>
		<description><![CDATA[在前面的推荐系统文章中主要是介绍了推荐系统的一些基本含义以及他涉及到那些学科，这篇文章主要是从推荐系统定义以及研究问题上说说自己所了解到的推荐系统，有不对或者不足之处还希望大牛们给以指正。
推荐系统其主要是为了给用户从大规模数据中（也就是大家常常说的信息过载问题）找出用户想要的数据，它单独成为一门学科还是从上个世纪关于一篇用协作过滤的方法题出来的，但是对于推荐系统的定义主要经历了三个主要发展：
Resnick &#38; Varian (1997)中定义：推荐系统就是一个集合一个群体中用户对于项目的信息，然后用这些信息去指导这个群体中其他人对这些推荐项的兴趣的系统。
Herlocker（2000）定义：推荐系统就是一个能够预测用户将来感兴趣或者用价值的推荐相的系统。
Burker(2003)定义：推荐系统它是一个能够将［1］产生个人推荐作为输出或者是［2］能够在用户从大规模的可选择的数据中，能够指导用户以个性化方式去选择感兴趣或者是用户的对象的系统。从定义上看，只要是满足满足条件［1］或者是条件［2］2我们都可以称之为推荐系统。
在推荐系统中，有一个很重要的因素是关于一个项目对于一个用户来说他的喜欢程度或者是有用程度的表达。我们直到对于一个事物的表达从我们的个人感觉去刻画的，它是比较抽象的，例如：你喜欢吃香蕉，但是你到底有多喜欢？一般是很难定量的去描述，只能去定性的角度去描述，往往我们常常说的是，我很喜欢吃香蕉或者是说，相对于苹果，我更喜欢吃香蕉。但是，对于计算机来说，喜欢就是喜欢，不喜欢就是不喜欢，它没有感情(起码现在的计算机基本上都是这样的吧)，所以它需要一个确定的数值去描述他。在推荐系统中，常常用一个范围的值去刻画某个推荐项对用户的兴趣或者是作用，例如：在一个食物推荐系统中，可以用1表示喜欢，0表示不喜欢，或者是在一个电影评价系统中，常常会用几个值来描述用户对电影的兴趣。
推荐系统的结果往往有两种形式：一种形式是预测，另外一种形式是将相关的推荐项列举出来。首先说说的一种形式，预测总体来说它是一个值，它表示的是该用户对某个推荐项的兴趣程度。例如在电影推荐系统，对于某一用户来说，系统预测出《建国大业》值为4（表示该用户可能很喜欢这个电影）；另外一种推荐结果就是从预测值（这里的预测值可以是相对的值）中选择k个最高的推荐项作为推荐结果，或者是设置一个阈值，以超过这个阈值的推荐项作为最后的推荐结果。
作为推荐系统来说，其主要的推荐方法有三种，分别是基于内容的推荐、协作推荐和混合式推荐。相关的具体知识分别看：基于内容推荐、协作推荐。混合式推荐方法就是将前面两种方法结合起来。
对于推荐系统来说，其主要的问题有：code-start问题、推荐评价和关于个人数据隐私问题。对于code-start问题的主要原因是由新用户问题和信推荐项问题引起的。任何一个系统都是出现同一个问题那就是怎么去评价系统的优劣，信息检索系统可以通过召回率和准确率来评价，那在推荐西系统中我们怎么去评价系统的优劣呢？至于数据隐私问题，因为推荐系统它是为了迎合用户的需求，那它必然直接或者间接的用到关于用户的兴趣的隐私性数据问题。
对于之前自己一直认为推荐系统的信息模式只有一种，通过阅读资料自己发现自己的理解的缺陷，其实推荐系统信息模式可以有推模式和拉模式两种形式，按照第三种定义，只要是对用户的兴趣选择有帮助的，都是推荐系统。
主要参考论文：Supporting People In Finding Information: Hybrid Recommender Systems and Goal-Based Structuring
]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/162/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>
