数据去重,充tian
数据去重,充tian
云采集功能数据保持在云
1;采集速度提高
2;无需电脑开机
3;数据随时下载
4;多ip同时采集【ip经常登录会被封号】
设置定时自动采集,
优先启动,
fen'pei
正则表达式工具;简单的替换,和更改
贪婪模式无问号,非贪婪模式有问号
正则表达式,01匹配,02替换
分支判断可以建立多个分支。之前但要建立循环条件
jaxa加载设置时间。
打开新标签页
自定义采集流程图别的电脑可以帮助采集备份
八爪鱼数据采集器
可视化介绍:
评论总数:当前处理评论数据的总条数
覆盖率:当前展示的典型意见包括的评论条数参考全部评论数据的覆盖率
词云:当前评论数据的典型意见
关系网:
第一层:当前评论数据的主要意见类型。
第二层:当前意见类别下的主要观点。
表格:前50条某典型意见评论详情。
数据匹配:插入使用vlookup
查找值是查找的任务名称,例如赛事或者平均进球数
精确匹配是输入0
大致匹配是输入1
云采集功能介绍:
1.采集速度提高
2.无需电脑开机
3.数据随时下载
4.多IP同时下载
云采集适用性更大,可
贪婪模式:会尽量多的提取文本中的数据,并不会因为数据满足第一次结束的条件而终止查找
非贪婪模式:
正则表达式介绍的两种方式:匹配和替换
匹配中只需要“:”以后的内容,路径用(?<=:)(.+?)\b表示
替换中则删除“某某某”之前的东西路径用(.+?)表示
/:表示一个文件下一级的文件(该文件夹中的的文件)
//:表示任何找到同类型的所有文件(所有文件夹中的一类型文件夹)
Xpath:网址路径
1、由问题猜测影响该问题相关的因素可能有哪些,影响有多大?
智能可视化,因素关联分析
各种因素关联,得出不同的结论
评论内容:正面评价多,但权重不大,综合分不高
典型意见里的评价内容可以看出用户比较倾向的主要关注点
关键词
可视化
AJAX加载
定义:一种网页加载方式。翻页过程中,网页没有重新加载,页面网址没有改变,只有网页中部分数据发生了交互。
网页只有加载完成了,八爪鱼才会进行下一步。由于AJAX页面没有变化即使加载完成,八爪鱼无法识别,在“点击元素”,“打开网页”,“点击翻页”处选择几秒超时
点击元素
1、循环翻页。点击下一页,选择”循环点击下一页“,在框内生成一个”循环翻页“
2、点击元素。(打开进入详情页),点击两块蓝色,选择”循环点击每个元素“,在翻页里生成了一个”循环“,里面有点击元素
2*、点击元素。会不会新开窗口--“打开新标签页”
3、数据提取。