《爬山虎采集器》是一款非常实用的编程开发软件,它能够采集互联网上的大部分网站数据,包括网页表格数据、文档、图片及其他各种形式文件,并自动批量下载到本地电脑,还可以帮助用户管理往后咱内的所有数据和信息,可以定时运行,自动发布,增量更新采集,完全实现自动化,有需要的用户们赶紧来下载试试看吧!
功能特色:
1、向导模式
通过可视化界面、鼠标点击即可采集数据、向导模式、用户无需任何技术基础,输入网址,一键提取数据。
2、独创高速内核
内置一套高速浏览器内核,加上HTTP引擎、JSON引擎模式,实现快速采集数据。
3、定时运行
可以按照每分钟、每天、每周、以及CRON表达式。指定了计划任务,任务就可以实现自动采集、自动发布,无需人工操作。
4、智能识别
通过智能算法,自动识别分页,自动识别列表,一键采集数据。
5、支持文件下载
可以支持图片、视频、文档等各种文件下载,支持自定义保存路径、文件名。
6、多种数据导出
支持多格式数据导出,包括TXT、CSV、Excel、ACCESS、MySQL、SQLServer、SQLite及发布到网站接口(Api)。
爬山虎采集器怎么用:
一、如何使用【简易模式】采集数据
第一步:打开客户端,选择简易模式
选择相应的采集模板
也可以根据入关键词搜索,筛选对应的模板分类
第二步:预览模板的采集字段和示例数据
根据提示,输入对应的参数(此模板是输入需要采集的关键词)
第三步:运行并下载
开始即可查看加载的进程
任务列表中:选中任务/点击查看
选择合适的保存格式
二、如何使用高级过滤,筛选关键词采集数据
第一步:新建任务,进入主页,选择“新建任务”输入需要采集的网址。
第二步:抓取数据
采集器自动识别列表数据 自动识别分页(需要采集多页数据)
点击标题列/右键/高级过滤(可以根据需求自定义添加删除字段,修改名称等)
必须包含
输入关键词:教学仪器设备,添加确定即可
可以看到,不包含关键词的名称已删除,需要采集多页:自动识别分页
选中链接/深入此链接(需要采集关键词的内容页)
添加字段/点击选中全文
第三步:设置 根据需要,自定义设置,可以大大提高加载速度及工作效率。
第四步:加载数据 任务列表中:选中任务/点击开使
可以看到加载的进程 (点击数据也可以查看刚加载的数据)
第五步:查看保存数据 任务列表中:选中任务/点击查看
可以预览刚加载的数据,并导出数据
特殊情况 :编辑内容,可以预览全部数据(修改后统一下载 )
软件功能:
向导模式
简单易用,轻松通过鼠标点击自动生成。
脚本定时运行
可按照计划定时运行,无需人工。
独创高速内核
自研的浏览器内核,速度飞快,远超对手。
智能识别
对于网页中的列表、表单结构(多选框下拉列表等)能够智能识别。
广告屏蔽
定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则。