3.1循环模块
https://list.jd.com/list.jtml?cat=9987,653,655
https://list.jd.com/list.jtml?cat=670,671,672
1、批量操作
循环:会把“打开网页”里的网址循环完之后,在执行下一步
1)文本循环
2)单个元素循环
点击该链接
循环点击下一页
3)固定元素循环
4)不固定元素循环
3.1循环模块
https://list.jd.com/list.jtml?cat=9987,653,655
https://list.jd.com/list.jtml?cat=670,671,672
1、批量操作
循环:会把“打开网页”里的网址循环完之后,在执行下一步
1)文本循环
2)单个元素循环
点击该链接
循环点击下一页
3)固定元素循环
4)不固定元素循环
1.2采集模式简介
一、智能采集:智能识别,无需配置。
1、在方框中输入网址 → 结果会直接输出(满足自己的需求就可摘取数据) → 点击“采集下一页”按钮会采集更多的数据 → 满足需求可点击“开始采集”按钮 → 点击“本地采集”按钮 → 若不符合数据可查看结果2、结果3的数据
2、点击“本地采集”按钮 会出现弹出框 → 进行数据采集 → 采集完成 → 导出数据
二、向导模式:贴心指引,规则配置。1、在采集网址中输入网址 → 点击“下一步”按钮 → 列表或表格页采集、网页列表中每个链接页的详细内容、单网页内容(这3个选择一种方式即可) → 点击“下一步”按钮 → 点击选中第一个商品的全部内容 → 继续点击第二个商品的全部内容,则会帮你选择全部所有商品 → 点击“下一步”按钮 → 选择自己需要的内容(比如价格、评分等) → 点击“需要翻页”按钮(左上角) → 点击“下→ 页按钮”→ 翻页中选择需要翻几页 →点击“下一步” → 保存 → 启动本地采集 →
八爪鱼是用来快速
2.2打开网页
https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_17755348653198921310%22%7D&n_type=0&p_from=1
https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_11300898560594357211%22%7D&n_type=0&p_from=1
https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9390377751363604379%22%7D&n_type=0&p_from=1
3.2点击元素
1、需要进入详情页请点击“循环点击每个元素“
八爪鱼是什么?
一、功能:
散乱数据→八爪鱼→结构化数据
二、优势:
电商数据
使用场景:竞品分析 销售分析 用户评论分析
复制粘贴:工作效率低
爬虫编号:学习成本高
输入网址
简易采集模式:
例如:电商数据(京东)
智能模式采集
1、复制网址粘贴至八爪鱼搜索框内
2、查看结果i,从中选取合适的模版
3、若数据量不够,则点击“家在下一页”
4、本地采集,导出至Excel
向导模式采集
1、输入一条或多条网址至八爪鱼向导采集模式的“采集网址”中,点击“下一步”。
2、“选择列表或表格”--很多块的内容规律排列,或者是行,“每个链接页的详细内容”--产从列表页点击进入详情页,“单网页”--只在这个网页中采集。点击”下一步“
3、”配置列表或表格,选择第几块数据“。选中大的蓝色块,则会抓取框内的所有内容,若点击第二块,则会全部选中多有的块。点击”下一步“
4、选择”配置抓取模板“,
5、”判断网页是否需要翻页“,-”点击网页中下一页“,”设置翻页次数“,点击下一步
文本列表的循环
1、新的循环,点击“文本列表”,输入文本
2、点击输入框,选择“输入文字”,点击“确定”
3、拖动“输入文字”至循环框内
4、选择“输入文字”的“使用循环”
5、点击“搜索”,选择“点击按钮”
6,出现“点击搜索”
单个元素的循环方式(翻页)
1、新的循环,点击“下一页”,选择“循环点击下一页”,生成了一个循环,里面有”点击翻页“
固定元素列表
想要点击每一个详情页
1、两个块,“循环点击每一个新元素”,生成一个循环“点击元素”。
2、生成了很多元素,递给“点击”
点击元素
1、循环翻页。点击下一页,选择”循环点击下一页“,在框内生成一个”循环翻页“
2、点击元素。(打开进入详情页),点击两块蓝色,选择”循环点击每个元素“,在翻页里生成了一个”循环“,里面有点击元素
2*、点击元素。会不会新开窗口--“打开新标签页”
3、数据提取。
AJAX加载
定义:一种网页加载方式。翻页过程中,网页没有重新加载,页面网址没有改变,只有网页中部分数据发生了交互。
网页只有加载完成了,八爪鱼才会进行下一步。由于AJAX页面没有变化即使加载完成,八爪鱼无法识别,在“点击元素”,“打开网页”,“点击翻页”处选择几秒超时
可视化
关键词
1、由问题猜测影响该问题相关的因素可能有哪些,影响有多大?
智能可视化,因素关联分析
各种因素关联,得出不同的结论
评论内容:正面评价多,但权重不大,综合分不高
典型意见里的评价内容可以看出用户比较倾向的主要关注点
/:表示一个文件下一级的文件(该文件夹中的的文件)
//:表示任何找到同类型的所有文件(所有文件夹中的一类型文件夹)
Xpath:网址路径
正则表达式介绍的两种方式:匹配和替换
匹配中只需要“:”以后的内容,路径用(?<=:)(.+?)\b表示
替换中则删除“某某某”之前的东西路径用(.+?)表示
贪婪模式:会尽量多的提取文本中的数据,并不会因为数据满足第一次结束的条件而终止查找
非贪婪模式:
云采集功能介绍:
1.采集速度提高
2.无需电脑开机
3.数据随时下载
4.多IP同时下载
云采集适用性更大,可
数据匹配:插入使用vlookup
查找值是查找的任务名称,例如赛事或者平均进球数
精确匹配是输入0
大致匹配是输入1