聪明文档网
幼儿教育
小学教育
初中教育
高中教育
高等教育
外语考试
资格考试
教学研究
人文社科
经管营销
工程科技
IT/计算机
自然科学
医药卫生
农林牧渔
求职/职场
计划/解决方案
总结/汇报
党团工作
工作范文
表格/模板
PPT模板
PPT制作技巧
科技
人文社科
经管营销
教育
办公应用
火车头使用说明
火车头使用说明
别的不说了,直接开始使用。
(ps:
开始之前,最好把爬虫的原理了解一下
咱们用的是免费版,
功能什么的很多受到限制,
免费版网页只能抓到两级,
而且无法定时执
行任务。
1
、
安装完火车头后,直接双击图标打开,此时会弹出一个登录页面,什么都不要管,直接
点击登录就进入了主界面,主界面如下:
你会发现它有一些内置的分组,
分组下面有内置的测试任务,
这里要强调一点,
每个任务从
上到下对应着火车头安装目录
data
目录下的以数字开头的文件夹,里面放着各自的数据文
件,大概内置测试任务有
38
个,所以
data
目录下有对应从
1
到
38
的
38
个文件夹,你以后
新建任务后,会自动再
data
目录下建立文件夹,序号依次递增。
2
、
新建任务和分组。你可以新建分组,也可以再已有的测试分组下面建立任务,但是有一
点要注意,任务不能脱离分组而存在,必须把任务存在分组里面,这里咱们新建一个名
字叫做腾讯的分组。
3
、
右键单击腾讯,选择新建任务,弹出新建任务对话框
4
、下面我们以腾讯新闻采集为例说一下如何去配置,任务名叫做腾讯新闻
可以看到,这里分为四步,第一部就是采集网址规则
(
这一步就相当于爬虫里面设置种子
url
并且入队的过程
,在出现的起始网址,添加单条网址,并点击
”
添加
“
按钮。
我们在网页中,
通过分析,
发现国内新闻的第二页及以后都是以数字递增的方式显示的,
我
们现在添加等差数列形式的网址
最后点击完成,查看效果
起始网址的添加就是种子
URL
的设置过程,
这里可以添加多个种子
URL
,
我这里设置了六页
下面就是多级网址获取,
点击添加按钮,
出现如下画面
(
这一步相当于提取网页所有连接的
过程
)
如果直接点击保存,相当于提取网页中所有链接,但真实情况下我们并不需要所有的链接,
所以需要对链接进行过滤,
可以从该选定区域提取网址,
也可以对结果网址过滤,
这里我们
设置结果网址必须包含
http://news.qq.com/a
,然后点击保存。
你可以看到有一个检测重复网址,
这个选项的目的就是告诉你,
在多次抓取的过程中是否抓
取相同网址的页面,这里默认是选中的。
最后点击一下测试网址采集这个按钮,咱们看看效果:
可以看到需要的
url
已经采集到了,随意双击其中任意一个
URL
,会跳到第二部采集内容规
则面板,注意,下图中的使用提示部分新手是必看的,不然一些操作就不会知道。如图:
我们点击测试查看一下默认规则下的显示效果效果:
_
新闻
_
腾讯网
这几个字是不需要的,要过滤掉,我们双击标题那一行,可以打开标题采集
规则的设置界面。
选择数据处理那部分的添加按钮,然后选择内容替换
将
_
腾讯
_
新闻网替换为空
数据处理列表就有一条记录。
如果我们要做多次数据处理,
可以依次的添加处理的动作。
也可以对处理的次序点击上图中的上下按钮进行调整。
双击数据处理列表,
可以对选中的记
录进行编辑。添加成功的结果如下
点击确定,然后我们重新点击测试,可以发现那几个字已经没有了:
我们继续设置内容,右键单击测试按钮,点击在弹出的下拉列表中选择获取源码
然后点击查找,在弹出的对话框中输入查询内容:
在内容的前边的代码是
style="TEXT-INDENT:
2em">
,我们再找一下后边的结束字符串。
然后就可以利用前后截取的方式来采集数据了。
结束字符串我们找到的是
,
然后
以刚才设置标题的方法设置内容,如图
点击测试,发现获取到的内容如下:
别的诸如时间,作者等的获取都一样,页面内容标签定义部分的标签名可以随意设置。
下面就是发布内容设置了。这里有四种方式,分别是
web
发布,保存到本地文件,导入到
自定义数据库和其它扩展,如图:
这里说一下保存为本地文件和导入到自定义数据库。两种方式可以同时启用
保存为的本地文件可以为
txt
excel
html
等格式,我们先选择保存为
html
格式,保存位置
这里选择
D:\
火车头文件保存,文件模板根据你选择保存文件的格式自动生成,文件模板位
于安装目录的
D:\
火车采集器
V8\System\FileTemplate
的文件夹下,
文件名格式随意写,
文件
编码也要注意,这里选择
GBK
然后是导入到自定义数据库,
火车头免费版只支持
SQLite
和
access
数据库,所以你要想导
入数据到别的数据库,
必须运用数据库发布模块
,
这里点击
数据库发布配置管理
,
然后弹出
来的就是数据库发布模块的配置窗口,在这里进行配置
点击新建
这里用的
MySQL
数据库,点击保存模块,保存在电脑上任意位置,这里我保存在桌面,名
字叫做
xinwen.dbm
然后点击最右边的更多
-
》导入,把刚才的模块导入进来,会发现显示如下:
手动配置数据库的连接信息,最后配置如下:
最后点击保存配置,在左边配置列表回发现新增的配置,
.
关闭这个界面即可,
此时你会发现在导入数据库部分新增了这个任务,
直接选中即可,
这部
分就配置完成
最后一部分文件保存及部分高级设置就是爬虫的一些基本参数的设置,这里不用管了。
最后点击保存,整个任务就完成了,下面就是执行过程。
6
、执行
把任务名字的后面都选中,直接点击开始按钮,整个流程就自动执行了,如图:
任务执行成功后界面如下:
下面就是判断此次任务执行的结果,
在腾讯新闻这个任务名字右键单击,
选择本地编辑任务
采集数据,查看结果:
可以看到所有的数据都已经存到了数据库里面,
当然你得注意,
这里的数据库是火车头默认
的
SQLite
数据库,咱们配置的数据库发布模块里面的
MySQL
数据库的内容并不在这里,你
可以用
MySQL
客户端工具区连接
MySQL
查看结果:
在查看
D:\
火车头文件保存发现所有的文件已经下载下来:
这就是一个完整的抓取过程。
注意:
1.
免费版的火车头不能进行任务调度,只能抓取最多两级页面。
2.
免费版的火车头只是支持
SQLite
和
access
数据库的切换,
如果要是想用别的数据库,
就需
要上面所讲的数据库发布模块的配置
3.
在保存到本地文件的时候,需要模板文件,默认的模板文件存在
D:\
火车采集器
V8\System\FileTemplate
下,模板文件的内容是可以改变的,至于怎么改变,看看文件内容
就知道了。
4.
火车头不支持关键字查询,但是火车头有一个插件叫做极速搜索,里面支持关键字查询,
但是默认的网站就那么几个,还不能自己制定数据源,形同鸡肋,你可以看看。
5.
火车头一次可以同时执行无限多个任务,只要电脑性能够高。
6.
火车头几乎可以抓取任何形式的网站,但是我现在对部分论坛还不知道无法抓取,像北邮
论坛,你研究研究如何抓取北邮论坛,几个参考网址:
http://faq.locoy.com/q-897.html
http://faq.locoy.com/q-755.html
http://faq.locoy.com/q-930.html
以上只是讲解了最简单的火车头抓取,
别的类型的网站抓取和火车头差不多,
如果要是分类
抓取的话,
只需要多件几个类型的任务,
同时执行就行。
更详细的教程可以查看火车头官网
和论坛。
《火车头使用说明.doc》
将本文的Word文档下载,方便收藏和打印
推荐:
下载文档
微博
空间
热门推荐
科技创新活动方案
“互联网+社会救助”服务体系让救助更精准
幼儿园新冠肺炎疫情防控工作方案--健康教育制度
我国社会救助管理服务体系建设研究
“巴铁”新传奇——巴基斯坦铁路“生命线”复兴记
《建筑师成长记录》读后感(精选多篇)
管理员聘请请示
2018年10月自考00402学前教育史试题及答案
中国高速铁路发展概况
忠厚传家久 诗书继世长 家风家训小故事
相关推荐
电力技术工作总结范文【三篇】
天津市脑系科中心医院(天津市环湖医院)神经外科
XX镇开展村民自治工作情况汇报
公务员面试真题及解析-应急应变类
优秀下基层干部先进事迹材料
2021批评与自我批评范文模板
2021年党支部主题党日活动方案
小学三年级数学上册口算专项试题带答案(完整版)
初三毕业班家长会发言稿培训课件
教师个人教学工作总结