基础版教学
206人加入学习
Python数据分析与应用
价格 ¥ 299.00
该课程属于 Python技术应用(初级)职业技能提升 请加入后再学习

数据集划分:

训练集:用于估计模型

验证集:用于确定网络结构或者控制模型复杂程度的参数

测试集:用于检验最优的模型的性能

典型的划分方式是训练集占总样本的50%。而验证集和测试集各占25%

K折交叉验证法:

当数据总量较少的时候,使用上面的方法将数据划分为三部分就不合适了

常用的方法是留少部分做测试集,然后对其余N个样本采用K折交叉验证法,基本步骤如下:
将样本打乱,均匀分成K份

轮流选择其中K-1份做训练,剩余的一份做验证

计算预测误差平方和,把K次的预测误差平方和的均值作为选择最优模型结构的依据。

将数据集切分为训练集和测试集:

train_test_split函数:sklearn的model_selection提供,能够对数据进行拆分,其使用格式如下:

sklearn.model_selection.train_test_split(*arrays,**options)

如果传入的是1组数据,那么生成的就是这一组数据随机划分为训练集和测试集,总共2组。如果传入的是2组数据,则生成的训练集和测试集分别两组,总共4组。

使用sklearn转换器进行数据预处理与降维

sklearn转换器三个方法

sklearn把相关的功能封装为转换器。使用sklearn转换器能够实现对传入的Numpy数组进行标准化处理,归一化处理,二值化处理,PCA降维等操作。转换器主要包括三个方法:

fit

transform

fit_transform

[展开全文]

Python数据分析优势:

1、语法简单精练

2、有很强大的库

3、功能强大

4、不仅适用于研究和原型构建,同时也适用于构建生产系统。

5、Python是一门胶水语言。

Python数据分析常用类库:
1、IPython

[展开全文]

数据分析概念:

广义的数据分析包括狭义数据分析和数据挖掘。

  狭义数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据作用,得到一个特征统计量结果的过程。

  数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。

数据分析应用场景:

1、客户分析

2、营销分析:产品分析、价格分析、渠道分析、广告与促销分析。

3、社交媒体分析

4、网络安全

5、设备管理

6、交通物流分析

7、欺诈行为检测

主流数据分析语言:R,Python,MATLAB

[展开全文]

授课教师

人工智能金牌讲师

课程特色

视频(8)
下载资料(1)