最近在研究nutch,整理了一下关于读取资源数据的命令。
1.查看crawldb数据库:bin/nutch readdb url/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
查看每个url地址的详细内容,导出数据:bin/nutch readdb url/crawldb/ -dump crawldb(导出的地址)
查看具体的url,以163为例:bin/nutch readdb url/crawldb/ -url http://www.163.com/
2.查看linkdb数据库的链接情况:bin/nutch readlinkdb url/linkdb/ -url http://www.163.com/
导出linkdb数据库文件:bin/nutch readlinkdb url/linkdb/ -dump linkdb(导出的地址)
3.查看segments:bin/nutch readseg -list -dir url/segments/ 可以看到每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。
导出segments:bin/nutch readseg -dump url/segments/20090309103156 segdb
分享到:
相关推荐
Nutch 读取搜索结果目录统计数据、提取链接结构信
Nutch模块命令
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
nutch的基本命令,让你更容易操作nutch,使其在你的掌握之中
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 ...
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
eclipse配置nutch,eclipse配置nutch
1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。...通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。 7、 nutch入门重点在于分析nutch脚本文件
nutch使用&Nutch;入门教程 pdf
nutch 2.2.1通过ivy.xml无法直接下载的jar包
Nutch搜索引擎数据获取1、 基本原理2、网络蜘蛛3、局域网抓取
nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: ...测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/Soft/nutch-1.0/bin $sh nutch
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...
nutch插件,安装nutch插件,mysql与nutch
解决Nutch摘要问题,跟nutch摘要相关的一些问题
nutch1.2测试文档
关于nutch爬虫一些需要监测的网站,为舆情系统或者监控系统或者全控媒体系统做数据的支撑。