TP: T表示预测正确;P表示预测正例
FT:F表示预测错误的;N表示预测饭粒
TP: T表示预测正确;P表示预测正例
FT:F表示预测错误的;N表示预测饭粒
紧密性越小越好,间隔性越大越小
kmeans算法流程案例
定量:比如38,47
定性:比如 男 女
简单匹配系数适用于01取值型数据
余弦相似系数
余弦相似系数适用于文档型数据,比如几篇文档,里面出现若干词,求文档之间的相似系数
常见算法
K-meANS
决策树算法案例
ID3算法不是最优算法,不能处理非离散型值
C4.5按照信息增益率来选择节点选择
C5.0算法是对C4.5修订
CART算法:GINI系数
对于一个确定性事件来说,熵值为0
比如,14天都确定打球,14/14,对应的熵值为0
熵值越小越好
对纯度提升的程度为 信息增益
决策树是规则的集合
逻辑回归:因变量只有0或1
广义线性模型:
y'=ln y
y'=wx+b
ln y/(1-y) 为对数几率
线性模型
单变量:
多变量
最小二乘法
性能度量第一种方式:回归任务,均方误差
错误率与精度
错误率:分类错误样本数占总样本数比例
查准率与查全率
查准率/准确率(precision): P=TP/(TP+FP)
查全率/召回率/灵敏度(recall) R=TP/(TP+FN)
不是只关心查全率
训练集与测试集
目标:对于模型、学习器的泛化误差进行评估
专家样本:训练集+测试集
训练集:训练误差
测试集:测试误差
独立同分布&互斥
用测试误差近似表示泛化误差
测试误差与泛化误差:
留出法:训练集+测试集 互斥互补
训练集训练模型,测试集测试模型
合理划分、保持比例
单词留出与多次留出
交叉验证法
K折交叉验证:将专家样本等份划分为K个数据集,轮流用K-1个用于训练,1个用于测试
缺点:改变了初始数据集的分布
真实值与预测值
训练误差
泛化误差
错误率
精度:1-错误率
真实值与预测值
目标:得到泛化误差小的模型、学习器
实际:新样本未知
以经验误差代表泛化误差
模型从训练样本中学得适用于所有潜在样本的“普遍规律"
过拟合与欠拟合
机器学习属于归纳
机器学习术语