Heritrix web界面功能介绍

xiaoxiao2021-03-25 299

一、安装heritrix

访问GitHub地址：https://github.com/internetarchive/heritrix3

我这里采用Clone的方式，使用的IDE是IntelliJ IDEA 导入完成后的结果如下：

二、启动Heritrix

https://webarchive.jira.com/wiki/display/Heritrix/Running+Heritrix+3.0+and+3.1 尝试启动heritrix，heritrix内核使用jetty所以不需要依附tomcat或者其他web容器。入口类是这个 org.archive.crawler.Heritrix，设置启动参数，如下所示：右键 Run ‘Heritrix.main()’启动程序：启动成功：

三、基于Web的用户界面

打开浏览器，访问 https://localhost:8443/ ,输入用户名密码，admin,admin。登录成功后的主控制台页如下所示：

四、运行第一个爬虫任务的快速指南

在主控制台页，新建一个名为’myJob’的Job，创建成功后的界面如下：点击新创建的’myJob’的名称链接，进入到’myJob’管理界面，如下所示：单击工具栏上的”Configuration”链接，进入配置文件的展示/编辑页面如下所示：需要进行一些简单的配置，才能使得这个Job正常运行： A. 将一个有效的值添加到 metadata.operatorContactUrl 属性，如下所示： 1)metadata.operatorContactUrl 你控制Heritrix的URL,一般是http://127.0.0.1 2)metadata.jobName 表示你的抓取名字,我们刚才创建的是myJob,那就修改为myJob 3)metadata.description 表示对这个抓取任务的简单描述,我们这里就描述为 test crawl job B. 接下来，修改爬虫的种子值 longerOverrides 的元素, 这里设置你想抓取的种子. C. 完善job信息和本机信息修改完成后，点击左下角的’save changes’按钮，保存配置。保存成功后，返回到’myJob’管理界面：

点击’build’按钮，进行build，Job is Ready

点击’Launch’按钮, Job is Active:PREPARING

点击’checkpoint’按钮, Job is Active:PAUSED

点击’unpause’按钮，运行Job，Job is Active:RUNNING

我们可以看到，爬取的数据在不断的增加

，数据默认保存在这个目录下： /Users/k/git/heritrix/heritrix/jobs/myJob/20170227055800/warcs，。默认是看不见抓取的页面的，

如果要看到每个抓取的页面，可以将配置文件的warcWriter这个bean的class改为： org.archive.modules.writer.MirrorWriterProcessor，这样就下载的网页是以镜像文件的形式保存在，一般存放在项目根目录下的mirror目录下

转载请注明原文地址: https://ju.6miu.com/read-522.html

技术

最新回复(0)