1169人加入学习
零基础入门数据分析(八爪鱼)

第一届“泰迪杯”数据分析职业技能大赛

价格 免费

3.1循环模块

https://list.jd.com/list.jtml?cat=9987,653,655

https://list.jd.com/list.jtml?cat=670,671,672

1、批量操作

循环:会把“打开网页”里的网址循环完之后,在执行下一步

1)文本循环

2)单个元素循环

点击该链接

循环点击下一页

3)固定元素循环

4)不固定元素循环

[展开全文]

1.2采集模式简介

 http://esf.sz.fang.com

一、智能采集:智能识别,无需配置。

1、在方框中输入网址  →  结果会直接输出(满足自己的需求就可摘取数据) →  点击“采集下一页”按钮会采集更多的数据  →  满足需求可点击“开始采集”按钮  →  点击“本地采集”按钮  →  若不符合数据可查看结果2、结果3的数据

2、点击“本地采集”按钮 会出现弹出框  →  进行数据采集  →  采集完成  →  导出数据

二、向导模式:贴心指引,规则配置。1、在采集网址中输入网址  →   点击“下一步”按钮   →   列表或表格页采集、网页列表中每个链接页的详细内容、单网页内容(这3个选择一种方式即可)  →   点击“下一步”按钮  →   点击选中第一个商品的全部内容  →   继续点击第二个商品的全部内容,则会帮你选择全部所有商品  →   点击“下一步”按钮  →   选择自己需要的内容(比如价格、评分等)  →   点击“需要翻页”按钮(左上角) →   点击“下→  页按钮”→ 翻页中选择需要翻几页  →点击“下一步”  →  保存  →  启动本地采集  →

[展开全文]

2.1 自定义采集模式

 http://esf.sz.fang.com

1、本地采集:就是使用本电脑的硬件采集

2、云采集:在互联网上 有很多台电脑(相当于把多个任务放到互联网上去帮助我们采集)

[展开全文]

2.2打开网页

https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_17755348653198921310%22%7D&n_type=0&p_from=1

https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_11300898560594357211%22%7D&n_type=0&p_from=1

https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9390377751363604379%22%7D&n_type=0&p_from=1

[展开全文]

3.2点击元素

1、需要进入详情页请点击“循环点击每个元素“

[展开全文]

八爪鱼是什么?

一、功能:

散乱数据→八爪鱼→结构化数据

二、优势:

电商数据

使用场景:竞品分析 销售分析 用户评论分析

复制粘贴:工作效率低

爬虫编号:学习成本高

输入网址 

 

[展开全文]

简易采集模式:

例如:电商数据(京东)

 

 

[展开全文]

智能模式采集

1、复制网址粘贴至八爪鱼搜索框内

2、查看结果i,从中选取合适的模版

3、若数据量不够,则点击“家在下一页”

4、本地采集,导出至Excel

 

向导模式采集

1、输入一条或多条网址至八爪鱼向导采集模式的“采集网址”中,点击“下一步”。

2、“选择列表或表格”--很多块的内容规律排列,或者是行,“每个链接页的详细内容”--产从列表页点击进入详情页,“单网页”--只在这个网页中采集。点击”下一步“

3、”配置列表或表格,选择第几块数据“。选中大的蓝色块,则会抓取框内的所有内容,若点击第二块,则会全部选中多有的块。点击”下一步“

4、选择”配置抓取模板“

5、”判断网页是否需要翻页“,-”点击网页中下一页“,”设置翻页次数“,点击下一步

 

[展开全文]

文本列表的循环

1、新的循环,点击“文本列表”,输入文本

2、点击输入框,选择“输入文字”,点击“确定”

3、拖动“输入文字”至循环框内

4、选择“输入文字”的“使用循环”

5、点击“搜索”,选择“点击按钮”

6,出现“点击搜索”

 

单个元素的循环方式(翻页)

1、新的循环,点击“下一页”,选择“循环点击下一页”,生成了一个循环,里面有”点击翻页“

 

固定元素列表

想要点击每一个详情页

1、两个块,“循环点击每一个新元素”,生成一个循环“点击元素”。

2、生成了很多元素,递给“点击”

 

 

[展开全文]

点击元素

1、循环翻页。点击下一页,选择”循环点击下一页“,在框内生成一个”循环翻页“

2、点击元素。(打开进入详情页),点击两块蓝色,选择”循环点击每个元素“,在翻页里生成了一个”循环“,里面有点击元素

2*、点击元素。会不会新开窗口--“打开新标签页”

 

3、数据提取。

[展开全文]

AJAX加载

定义:一种网页加载方式。翻页过程中,网页没有重新加载,页面网址没有改变,只有网页中部分数据发生了交互。

网页只有加载完成了,八爪鱼才会进行下一步。由于AJAX页面没有变化即使加载完成,八爪鱼无法识别,在“点击元素”,“打开网页”,“点击翻页”处选择几秒超时

[展开全文]
wk94954 · 2018-11-04 · 3.3AJAX加载 1

 1、由问题猜测影响该问题相关的因素可能有哪些,影响有多大?

智能可视化,因素关联分析

各种因素关联,得出不同的结论

 评论内容:正面评价多,但权重不大,综合分不高

典型意见里的评价内容可以看出用户比较倾向的主要关注点

 

[展开全文]

/:表示一个文件下一级的文件(该文件夹中的的文件)

//:表示任何找到同类型的所有文件(所有文件夹中的一类型文件夹)

Xpath:网址路径

[展开全文]

正则表达式介绍的两种方式:匹配和替换

匹配中只需要“:”以后的内容,路径用(?<=:)(.+?)\b表示

替换中则删除“某某某”之前的东西路径用(.+?)表示

[展开全文]

贪婪模式:会尽量多的提取文本中的数据,并不会因为数据满足第一次结束的条件而终止查找

非贪婪模式:

[展开全文]

云采集功能介绍:

1.采集速度提高

2.无需电脑开机

3.数据随时下载

4.多IP同时下载

云采集适用性更大,可

[展开全文]

数据匹配:插入使用vlookup

查找值是查找的任务名称,例如赛事或者平均进球数

精确匹配是输入0

大致匹配是输入1

[展开全文]

授课教师

泰迪杯运营

课程特色

视频(27)
下载资料(15)