不管是不是搞搜索引擎的,都值得一读
这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。 市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。 而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的...
(展开)
nutch的介绍太浅,错误也有不少
买了这本书,直接看这几天一直困惑自己的中文分词~~ 前面介绍了一大段中文分词的基本概要,和lucene的分析器 后面nutch的分析器只是简单的介绍了几个类,nutch中文分词只用了200字左右。 书中也没用很系统的介绍nutch如何实现中文分词,~~后面的案例也只是简单的单字切分。 ...
(展开)
哈工大在信息检索领域做的不错
哈工大信息检索研究中心的研究方向包括文本检索、文本挖掘、语言分析、跨语言检索和跨媒体检索五个方面,研究中心以认知心理学和机器学习为理论,以语言分析为基础研究,以信息抽取、文本检索、跨语言/媒体检索为应用研究,以精准搜索与挖掘系统为应用系统平台。 这是他们的主...
(展开)