Heritrix web界面功能介绍

    xiaoxiao2021-03-25  220

    一、安装heritrix

    访问GitHub地址:https://github.com/internetarchive/heritrix3

    我这里采用Clone的方式,使用的IDE是IntelliJ IDEA 导入完成后的结果如下:

    二、启动Heritrix

    https://webarchive.jira.com/wiki/display/Heritrix/Running+Heritrix+3.0+and+3.1 尝试启动heritrix,heritrix内核使用jetty所以不需要依附tomcat或者其他web容器。 入口类是这个 org.archive.crawler.Heritrix,设置启动参数,如下所示: 右键 Run ‘Heritrix.main()’启动程序: 启动成功:

    三、基于Web的用户界面

    打开浏览器,访问 https://localhost:8443/ ,输入用户名密码,admin,admin。 登录成功后的主控制台页如下所示:

    四、运行第一个爬虫任务的快速指南

    在主控制台页,新建一个名为’myJob’的Job,创建成功后的界面如下: 点击新创建的’myJob’的名称链接,进入到’myJob’管理界面,如下所示: 单击工具栏上的”Configuration”链接,进入配置文件的展示/编辑页面如下所示: 需要进行一些简单的配置,才能使得这个Job正常运行: A. 将一个有效的值添加到 metadata.operatorContactUrl 属性,如下所示: 1)metadata.operatorContactUrl 你控制Heritrix的URL,一般是http://127.0.0.1 2)metadata.jobName 表示你的抓取名字,我们刚才创建的是myJob,那就修改为myJob 3)metadata.description 表示对这个抓取任务的简单描述,我们这里就描述为 test crawl job B. 接下来,修改爬虫的种子值 longerOverrides 的 元素, 这里设置你想抓取的种子. C. 完善job信息和本机信息 修改完成后,点击左下角的’save changes’按钮,保存配置。 保存成功后,返回到’myJob’管理界面:

    点击’build’按钮,进行build,Job is Ready

    点击’Launch’按钮, Job is Active:PREPARING

    点击’checkpoint’按钮, Job is Active:PAUSED

    点击’unpause’按钮,运行Job,Job is Active:RUNNING

    我们可以看到,爬取的数据在不断的增加

    ,数据默认保存在这个目录下: /Users/k/git/heritrix/heritrix/jobs/myJob/20170227055800/warcs,。默认是看不见抓取的页面的,

    如果要看到每个抓取的页面,可以将配置文件的warcWriter这个bean的class改为: org.archive.modules.writer.MirrorWriterProcessor,这样就下载的网页是以镜像文件的形式保存在,一般存放在项目根目录下的mirror目录下

    转载请注明原文地址: https://ju.6miu.com/read-522.html

    最新回复(0)