聪明文档网

火车头使用说明

火车头使用说明
别的不说了，直接开始使用。(ps:开始之前，最好把爬虫的原理了解一下
咱们用的是免费版，功能什么的很多受到限制，免费版网页只能抓到两级，而且无法定时执行任务。
1、
安装完火车头后，直接双击图标打开，此时会弹出一个登录页面，什么都不要管，直接点击登录就进入了主界面，主界面如下：

你会发现它有一些内置的分组，分组下面有内置的测试任务，这里要强调一点，每个任务从上到下对应着火车头安装目录data目录下的以数字开头的文件夹，里面放着各自的数据文件，大概内置测试任务有38个，所以data目录下有对应从1到38的38个文件夹，你以后新建任务后，会自动再data目录下建立文件夹，序号依次递增。
2、
新建任务和分组。你可以新建分组，也可以再已有的测试分组下面建立任务，但是有一点要注意，任务不能脱离分组而存在，必须把任务存在分组里面，这里咱们新建一个名字叫做腾讯的分组。

3、右键单击腾讯，选择新建任务，弹出新建任务对话框

4、下面我们以腾讯新闻采集为例说一下如何去配置，任务名叫做腾讯新闻

可以看到，这里分为四步，第一部就是采集网址规则(这一步就相当于爬虫里面设置种子url并且入队的过程，在出现的起始网址，添加单条网址，并点击”添加“按钮。

我们在网页中，通过分析，发现国内新闻的第二页及以后都是以数字递增的方式显示的，我们现在添加等差数列形式的网址

最后点击完成，查看效果

起始网址的添加就是种子URL的设置过程，这里可以添加多个种子URL，我这里设置了六页下面就是多级网址获取，点击添加按钮，出现如下画面（这一步相当于提取网页所有连接的过程）

如果直接点击保存，相当于提取网页中所有链接，但真实情况下我们并不需要所有的链接，所以需要对链接进行过滤，可以从该选定区域提取网址，也可以对结果网址过滤，这里我们设置结果网址必须包含http://news.qq.com/a，然后点击保存。

你可以看到有一个检测重复网址，这个选项的目的就是告诉你，在多次抓取的过程中是否抓取相同网址的页面，这里默认是选中的。
最后点击一下测试网址采集这个按钮，咱们看看效果：

可以看到需要的url已经采集到了，随意双击其中任意一个URL，会跳到第二部采集内容规则面板，注意，下图中的使用提示部分新手是必看的，不然一些操作就不会知道。如图：

我们点击测试查看一下默认规则下的显示效果效果：

_新闻_腾讯网这几个字是不需要的，要过滤掉，我们双击标题那一行，可以打开标题采集规则的设置界面。

选择数据处理那部分的添加按钮，然后选择内容替换

将_腾讯_新闻网替换为空

数据处理列表就有一条记录。如果我们要做多次数据处理，可以依次的添加处理的动作。也可以对处理的次序点击上图中的上下按钮进行调整。双击数据处理列表，可以对选中的记录进行编辑。添加成功的结果如下

点击确定，然后我们重新点击测试，可以发现那几个字已经没有了：

我们继续设置内容，右键单击测试按钮，点击在弹出的下拉列表中选择获取源码

然后点击查找，在弹出的对话框中输入查询内容：

在内容的前边的代码是

style="TEXT-INDENT: 2em"> ，我们再找一下后边的结束字符串。然后就可以利用前后截取的方式来采集数据了。结束字符串我们找到的是

，然后以刚才设置标题的方法设置内容，如图

点击测试，发现获取到的内容如下：

别的诸如时间，作者等的获取都一样，页面内容标签定义部分的标签名可以随意设置。下面就是发布内容设置了。这里有四种方式，分别是web发布，保存到本地文件，导入到自定义数据库和其它扩展，如图：

这里说一下保存为本地文件和导入到自定义数据库。两种方式可以同时启用
保存为的本地文件可以为txt excel html等格式，我们先选择保存为html格式，保存位置这里选择D:\火车头文件保存，文件模板根据你选择保存文件的格式自动生成，文件模板位于安装目录的D:\火车采集器V8\System\FileTemplate的文件夹下，文件名格式随意写，文件编码也要注意，这里选择GBK
然后是导入到自定义数据库，火车头免费版只支持SQLite和access数据库，所以你要想导入数据到别的数据库，必须运用数据库发布模块，这里点击数据库发布配置管理，然后弹出来的就是数据库发布模块的配置窗口，在这里进行配置

点击新建

这里用的MySQL数据库，点击保存模块，保存在电脑上任意位置，这里我保存在桌面，名字叫做xinwen.dbm 然后点击最右边的更多-》导入，把刚才的模块导入进来，会发现显示如下：

手动配置数据库的连接信息，最后配置如下：

最后点击保存配置，在左边配置列表回发现新增的配置，.

关闭这个界面即可，此时你会发现在导入数据库部分新增了这个任务，直接选中即可，这部分就配置完成

最后一部分文件保存及部分高级设置就是爬虫的一些基本参数的设置，这里不用管了。最后点击保存，整个任务就完成了，下面就是执行过程。

6、执行

把任务名字的后面都选中，直接点击开始按钮，整个流程就自动执行了，如图：

任务执行成功后界面如下：

下面就是判断此次任务执行的结果，在腾讯新闻这个任务名字右键单击，选择本地编辑任务采集数据，查看结果：

可以看到所有的数据都已经存到了数据库里面，当然你得注意，这里的数据库是火车头默认的SQLite数据库，咱们配置的数据库发布模块里面的MySQL数据库的内容并不在这里，你可以用MySQL客户端工具区连接MySQL查看结果：

在查看D:\火车头文件保存发现所有的文件已经下载下来：

这就是一个完整的抓取过程。

注意：
1.免费版的火车头不能进行任务调度，只能抓取最多两级页面。 2.免费版的火车头只是支持SQLite和access数据库的切换，如果要是想用别的数据库，就需要上面所讲的数据库发布模块的配置
3.在保存到本地文件的时候，需要模板文件，默认的模板文件存在D:\火车采集器V8\System\FileTemplate下，模板文件的内容是可以改变的，至于怎么改变，看看文件内容就知道了。
4.火车头不支持关键字查询，但是火车头有一个插件叫做极速搜索，里面支持关键字查询，但是默认的网站就那么几个，还不能自己制定数据源，形同鸡肋，你可以看看。 5.火车头一次可以同时执行无限多个任务，只要电脑性能够高。
6.火车头几乎可以抓取任何形式的网站，但是我现在对部分论坛还不知道无法抓取，像北邮论坛，你研究研究如何抓取北邮论坛，几个参考网址： http://faq.locoy.com/q-897.html http://faq.locoy.com/q-755.html http://faq.locoy.com/q-930.html
以上只是讲解了最简单的火车头抓取，别的类型的网站抓取和火车头差不多，如果要是分类抓取的话，只需要多件几个类型的任务，同时执行就行。更详细的教程可以查看火车头官网和论坛。

《火车头使用说明.doc》

将本文的Word文档下载，方便收藏和打印