KM+EL(选修)
38人加入学习
第一课 Python机器学习实战
价格 ¥ 319.00

TP: T表示预测正确;P表示预测正例

FT:F表示预测错误的;N表示预测饭粒

[展开全文]

紧密性越小越好,间隔性越大越小

[展开全文]

定量:比如38,47

定性:比如  男 女

 

简单匹配系数适用于01取值型数据

余弦相似系数

余弦相似系数适用于文档型数据,比如几篇文档,里面出现若干词,求文档之间的相似系数

 

 

[展开全文]

 

ID3算法不是最优算法,不能处理非离散型值

C4.5按照信息增益率来选择节点选择

C5.0算法是对C4.5修订

CART算法:GINI系数

[展开全文]

对于一个确定性事件来说,熵值为0

比如,14天都确定打球,14/14,对应的熵值为0

熵值越小越好

 

对纯度提升的程度为 信息增益

[展开全文]

 

逻辑回归:因变量只有0或1

广义线性模型:

y'=ln y

y'=wx+b

ln y/(1-y) 为对数几率

 

 

[展开全文]

 

线性模型

单变量:

多变量

最小二乘法

 

[展开全文]

性能度量第一种方式:回归任务,均方误差

 

错误率与精度

错误率:分类错误样本数占总样本数比例

查准率与查全率

查准率/准确率(precision):    P=TP/(TP+FP)

查全率/召回率/灵敏度(recall)   R=TP/(TP+FN)

 

不是只关心查全率

 

[展开全文]

训练集与测试集

 

目标:对于模型、学习器的泛化误差进行评估

专家样本:训练集+测试集

训练集:训练误差

测试集:测试误差

独立同分布&互斥

用测试误差近似表示泛化误差

 

测试误差与泛化误差:

留出法:训练集+测试集  互斥互补

             训练集训练模型,测试集测试模型

             合理划分、保持比例

             单词留出与多次留出

交叉验证法

K折交叉验证:将专家样本等份划分为K个数据集,轮流用K-1个用于训练,1个用于测试

缺点:改变了初始数据集的分布

[展开全文]

真实值与预测值

 

训练误差

泛化误差

错误率

精度:1-错误率

 

 

真实值与预测值

目标:得到泛化误差小的模型、学习器

实际:新样本未知

以经验误差代表泛化误差

 模型从训练样本中学得适用于所有潜在样本的“普遍规律"

 

 

过拟合与欠拟合

 

[展开全文]

授课教师

数据挖掘与人工智能金牌讲师
数据挖掘资深讲师
管理员

课程特色

视频(30)
下载资料(1)