火车采集器即火车头采集器,是一款功能强大的网页数据采集工具,它广泛应用于网页采集,网站采集,数据采集等等,可以批量把网上的文字、图片、文件采集到本地,同时还具备采集-发布的功能,让建站变的十分简单!功能强大】配置灵活是它的特点,只要你看上的网页都可以批量采集。通常来说,火车采集器免费版功能已经足够大家使用!
火车采集器软件特色
1、通用性强
无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
2、稳定、高效
五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
3、扩展性强、适用范围广
自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。
火车采集器菜单功能
1.新建分组
新建一个任务分组,选择所属分组,确定分组名称和备注。
2.新建任务
确定所属分组,新建一个任务,填写任务名称并保存。
3.Web发布配置
Web发布配置定义了如何登陆一个网站以及向该网站提交数据。
主要涉及到登录信息的获取,网站编码设定,栏目列表的获取,以及使用数据测试发布效果。
4.Web发布模块
可以定义网站登录,获取栏目列表,获取网页随机值,内容发布参数,以及上传文件,构造发布数据等高级功能。
5.数据库发布配置
数据库发布配置定义了数据库链接信息的设置以及数据库模块的选择。
6.数据库发布模块
用于编辑数据库的发布模块,方便我们将数据发布到配置好的数据库中。
火车采集器可选mysql、sqlserver、oracle、access四种数据库类型,在文本输入框中填写sql语句
(需有数据库相关知识),并可使用标签替换相应数据。也可在采集器模块文件夹中加载某一模块进行编辑。
7.计划任务
设置列表中采集任务的启动计划,可每间隔、每天、每周、仅一次、或自定义Cron表达式,
(Cron表达式的写法可参考相关术语中的介绍)。保存设置后,任务即可按照设置执行。
8.插件管理
插件是可以用来扩展火车采集器功能的程序
火车采集器V9支持PHP源码、C#源码、C#类库三种类型的插件,
可用于扩展http请求、内容处理和文件下载的功能,并可以分别进行测试。
9.http二级代理
网络中的服务器,可以让网络用户去取得所需要的网络信息。
代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源,
突破电信的ip封锁和隐藏真实的ip等。
火车采集器V9支持http代理、socket4和socket5代理。
10.http模拟请求
可以设置如何发起一个http请求,包括设置请求信息,返回头信息。并具有自动提交的功能。
火车采集器基本功能
1.规则自定义——通过采集规则的定义,可以搜索几乎任何类型的网站采集信息。
2.多任务,多线程-可以同时获取多个信息,每个任务可以使用多个线程。
3.所见即所得-任务采集过程中所见即所得,过程中遍历的链接信息.采集信息.错误信息等将及时反映在软件界面上。
4.数据保存——数据在采集的同时自动保存到相关数据库中,数据结构可以自动适应。该软件可以根据采集规则自动创建数据库,以及表和字段,也可以通过导库灵活地将数据保存到客户现有的数据库结构中。
5.断点续采-信息收集任务可在停止后从断点开始继续收集,从此您不再担心您的收集任务意外中断。
6.网站登录-支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也可以收集。
7.计划任务——通过这个功能,您可以定期、定量或循环地执行您的采集任务。
8.采集范围限制——采集范围可根据采集深度和网站标识进行限制。
9.文件下载-可以将采集到的二进制文件(如图片、音乐、软件、文档等)下载到本地磁盘或采集结果数据库中。
10.结果替换-可以根据规则将收集到的结果替换为您定义的内容。
11.条件保存——那些信息保存和过滤可以根据某些条件来决定。
12.过滤重复内容-软件可以根据用户设置和实际情况自动删除重复内容和重复网站。
13.特殊链接识别-使用该功能可以识别JavaScript动态生成的链接或其他更奇怪的连接。
14.数据发布-可以通过自定义界面将收集到的结果数据发布到任何内容管理系统和指定数据库中。目前支持的目标发布媒体包括:数据库(access、sqlserver、mysql、oracle)、静态htm文件。
15.预留编程接口-定义多个编程接口,用户可以在事件中使用PHP和C#语言进行编程,扩展采集功能。
火车采集器特色功能
1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
2、多种发布方式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
4、本地编辑:本地可视化编辑已采集的数据。
5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
6、管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
更新日志:
V10.1正式版
1.修复:添加了HTTP请求的头信息之后,再添加多页,头信息的所属页会全部清空。
2.新增:表格类型数据自动分析,自动添加字段,也可以删除字段。自动勾选循环。
3.修复:复制规则之后,规则排重库处为空白,无法建立新的排重库。
4.完善:删除任务的时候,同时删除该任务的所有数据,并且在提示信息框加上提示信息。
5.修复:文件下载jpeg格式自动转换jpg。
6.优化:提取json时若提取表达式里面属性不存在导致其他数据提取失败。
V10.0正式版
1.数据获取中支持调用其他标签的值作为截取条件。
2.数据获取支持CSS selector,很多网页的css 的属性唯一,此功能更利于批量从网页中提取数据。
3.增加关联区域功能,可以截取网页中指定区域内容进行采集处理。
4.批量网址增加区间变化的网址增加方式,适应更多的网页地址变化方式。
5.批量设置增加新增加功能的批量设置。
6.运行统计日志设置添加默认关闭功能,可在设置中选择开启或关闭。
7.oss相关问题修复。
8.网址空格问题导致列表页标签错误问题修复。
9.下载相关问题修复。
10.修复“任务数据批量处理”中删除为空记录无效的问题。
11.文件下载插件增加文件下载后处理接口。
用户评价:
火车采集器,一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。火车采集器历经十年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。