nutch-1.0 的分布式查询部署

mr_lonely_hp

浏览: 89484 次
性别:
来自: 湖南

最近访客更多访客>>

gy1347700

xanthe521

Tech_he

sunnoonnoon

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Tomcat Hadoop Mapreduce 应用服务器 XML

nutch -1.0 的分布式查询部署

nutch-1.0集成了hadoop的mapreduce 实现分布式爬虫方式，抓取的网页及索引等都存放在HDFS上，但hdfs 用于查询是不切实际的，所以建议copy到本地之后做搜索查询。但如果索引文件很多，索引数据量大，在一台机器上部署查询势必很慢，这时可以考虑分布式查询方式，将索引分散在多个机器中；

下面是分布式查询方式的部署方式：

首先定义两点：
1. search-servers.txt 所在的机器为主节点，设IP为172.16.100.1；
2. search-servers.txt 中定义的各个节点为subserver，作为查询服务器提供者，这里定义两个：172.16.100.2及172.16.100.3；

主节点(172.160100.1)的安装：
1. 安装tomcat，细节略去，安装目录为：/usr/local/tomcat。
2. 下载nutch-1.0.tar.gz，并解压缩，设解压缩到/data /nutch；
3. 将/data/nutch/nutch-1.0.war解压到tomcat的webapps目录下，即/usr/local/tomcat/webapps/nutch;
4. 修改 /usr/local/tomcat/webapps/nutch/WEB-INF/classes/nutch-site.xml，补充1个属性定义：
<property>
<name>searcher.dir</name>
<value>/data/winter/search-dir</value>
<description> Path to root of crawl. 即 search-servers.txt 所在的父目录
</description>
</property>

subserver(172.16.100.2及172.16.100.3)的配置：
1. 设subserver配置地址为： /data/search-server
2. 将/data/nutch下的bin、conf、lib、plugin s等拷贝到/data/search-server下；
3. chmod +x bin，使得bin下的脚本可执行；
4. 在conf/nutch-site.xml中添加两个属性：
<property>
<name>plugin.folders</name>
<value>/data/search-server/plugins</value>
<description>Directories where nutch plugins are located.
</description>
</property>

<property>
<name>searcher.dir</name>
<value>/data/indexes</value>
<description> Path to root of crawl.
</description>
</property>

searcher.dir指向本地的索引文件路径，可以包含多个index，但每个index下都必须包含index.done文件。

配置完毕，然后把hdfs上的索引分散拷贝到subserver中(为简单起见，可以先拷贝到一个subserver)。

启动方法：
1. 在主机器上编辑search-servers.txt，指定所有的subserver的IP及端口号，如：
172.16.100.1 9999
172.16.100.2 9999

2. 在各个subserver上启动DistributedSearch.Server进程：nohup bin/nutch server 9999 > server.log 2>&1 &;
3. 启动172.16.100.1上的tomcat；
4. 测试以下地址：http://172.16.100.1:8080/nutch ，为搜索首页；

如果测试不成功，可以从以下两个日志中分析：
1. subserver上的 server.log ；
2. 主节点上的tomcat日志；

nutch-1.0的分布式查询只能作为研究学习用，应用在实际搜索阶段有以下几个问题：
1. 搜索的idf信息只是各个subserver相对的idf，未参考整体的idf，这个在nutch jira中有人提过，也有提交过一些patch，可以参考下；
2. DistributedSegmentBean 中getSummary(HitDetails[] detailsArr, Query query)方法会导致summary乱序，修改下源代码可以解决；
3. HitDetails 的write 及read方法，用UTF方法传输field 及value，如果长度超过65536，会出现 UTFDataFormatException异常，换Text吧；

分享到：