最近在研究nutch,找到了关于使用底层命令进行全网爬行的资料。
首先获得网址集,使用http://rdf.dmoz.org/rdf/ 目录下的content.example.txt 文件做测试,建立文件夹dmoz
命令:bin/nutch org.apache.nutch.tools.DmozParser content.example.txt >dmoz/urls
注射网址到crawldb数据库:
命令:bin/nutch inject crawl/crawldb dmoz
创建抓取列表:
命令:bin/nutch generate crawl/crawldb crawl/segments
把segments下的文件保存到变量s1中,供以后调用:
命令:s1=`ls -d crawl/segments/2* | tail -1`
命令:echo $s1
注`不是单引号,而是左上角跟~一个键位的那个
运行fetcher获取这些url信息:
命令:bin/nutch fetch $s1
更新数据库,把获取的页面信息存进数据库中:
命令:bin/nutch updatedb crawl/crawldb $s1
第一次抓取结束。
接下来选择分值排在前10的url来进行第二次和第三次抓取:
命令:bin/nutch generate crawl/crawldb crawl/segments -topN 10
命令:s2=`ls -d crawl/segments/2* | tail -1`
命令:echo $s2
命令:bin/nutch fetch $s2
命令:bin/nutch updatedb crawl/crawldb $s2
命令:bin/nutch generate crawl/crawldb crawl/segments -topN 10
命令:s3=`ls -d crawl/segments/2* | tail -1`
命令:echo $s3
命令:bin/nutch fetch $s3
命令:bin/nutch updatedb crawl/crawldb $s3
根据segments的内容更新linkdb数据库:
命令:bin/nutch invertlinks crawl/linkdb crawl/segments/*
建立索引:
命令:bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*
可以通过此命令进行查询:
命令:bin/nutch org.apache.nutch.searcher.NutchBean faq 此处的faq代表所要搜索的关键词
分享到:
相关推荐
3.2 爬行全网.....18 3.2.1 nutch数据集的基本组成:.....18 3.2.2 爬行"官方"网址.....18 3.2.3 爬行中文网址....22 4. nutch基本原理分析...23 4.1 nutch的基本组成.23 4.2 nutch工作流程.....23 5. nutch工作...
nutch安装指南,nutch教程,nutch网络爬取
( Nutch,第1部分:爬行(译文) ( Nutch,第1部分:爬行(译文)
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
Nutch模块命令
1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。...通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。 7、 nutch入门重点在于分析nutch脚本文件
是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了...
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
nutch的使用方法,里面有具体的nutch代码函数,命令,对于基本的网页爬取是够了
3.2 爬行全网.....18 3.2.1 nutch数据集的基本组成:.....18 3.2.2 爬行"官方"网址.....18 3.2.3 爬行中文网址....22 4. nutch基本原理分析...23 4.1 nutch的基本组成.23 4.2 nutch工作流程.....23 5. nutch...
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
eclipse配置nutch,eclipse配置nutch
nutch的基本命令,让你更容易操作nutch,使其在你的掌握之中
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: ...测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/Soft/nutch-1.0/bin $sh nutch
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据...
nutch使用&Nutch;入门教程 pdf
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境,而Cygwin本身的安装与使用也不是一件简单的事。下面,就让笔者对Nutch在Windows系统中的安装进行一番细解吧
Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...