Machine Learning
绪论
人类根据经验做出的判断就是机器学习所要模仿的过程,挑选西瓜的过程通过色泽,根蒂,声音,做出判断也是一个机器学习的过程,所以机器学习的通俗的解释就是根据已知的经验对未知的情况做出决策,而小明做出判断的依据就是依照以前挑西瓜经验数据所建立的模型。
机器学习定义
利用计算的手段,利用经验来改善系统自身的性能,从而在计算机从数据中产生模型,并使用该模型对新的情况给出判断。(模型
泛指从数据中学得的结果)
机器学习与数据挖掘关系
机器学习是根据已有的经验建立模型,判断新的情况。
数据挖掘:
数据分析技术(机器学习)——|
|——数据挖掘
数据管理技术(数据库)————|
典型的机器学习过程
训练数据->模型->新数据样本->类别标记
基本术语
数据集 :记录的集合。
特征属性:反反映事件或对象在某些方面的表现或性质的事项。
属性值:属性上的取值,如青绿。
示例样本:每条记录是关于一个事件/对象的描述。
属性空间/样本空间/输入空间:属性张成的空间(属性的个数是属性空间的维数)。
学习/训练:从数据中学得模型的过程,这个过程通过执行摸个算法来完成.
标记空间/输出空间:(xi,yi),yi是标记,Y为标记空间。
假设:即通过学习所得到的规律,对应了数据某种潜在的规律。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
##### 任务 | ||||
根据预测目标 ,学习任务可分为三类: |
||||
``` | ||||
分类:预测值是离散值 | ||||
二分类:正类(好瓜);反类(坏瓜); | ||||
多分类:(冬瓜,南瓜,西瓜); | ||||
回归:预测值是连续值 | ||||
e.g.西瓜成熟度 |
(分类和回归的预测任务是建立一个从样本空间到输出空间的映射f:X->Y)
聚类:无预测值,即没有标记信息
即将训练集中的样本分为若干组(称为簇);
自动形成的簇可能对应一些潜在的概念划分(深色瓜,浅色瓜),有助于了解数据的内在规律
深色瓜,浅色瓜的概念在聚类学习中,事先是不知道的而且学习过程中通常训练样本没有标记信息.
根据`训练数据是否拥有标记信息`学习任务可分为三类:
监督学习 : 分类,回归 (人脸识别,指纹识别,房价预测,肿瘤诊断)
无监督学习 : 聚类
半监督学习 : 两者结合
##### 泛化能力
机器学习的目标是使建立的模型既能很好的适用于`新样本`也能很好的适用于`训练集`。
称模型适用于新样本的能力称为模型的`泛化能力(generalization)`。
为了使学习任务变得简单化,假设样本空间中的样本都服从与一个未知分布,即训练集`独立同分布.`
#### 习题练习
###### 1.1
西瓜问题的版本空间
|--->(色泽=*;根蒂=蜷缩;敲声=浊响)--->|--->(色泽=*;根蒂=*;敲声=浊响)
| |--->(色泽=*;根蒂=蜷缩;敲声=*)
(色泽=青绿;根蒂=蜷缩;敲声=浊响)—>|—>(色泽=青绿;根蒂=;敲声=浊响)—>|—>(色泽=;根蒂=;敲声=浊响)
| |—>(色泽=青绿;根蒂=;敲声=)
|—>(色泽=青绿;根蒂=蜷缩;敲声=)—>|—>(色泽=青绿;根蒂=;敲声=)
|—>(色泽=;根蒂=蜷缩;敲声=)
1.2
好瓜<->((色泽=青绿)V(根蒂=蜷缩)V(敲声=浊响))
好瓜<->((色泽=;根蒂=;敲声=))
好瓜<->((色泽=;根蒂=;敲声=))
好瓜<->((色泽=;根蒂=;敲声=))
1.3
以表1.1为例,若存在噪声,则对离散数据集采用奥卡姆剃刀原则获得尽可能光滑的函数曲线。
1.4*
本题我使用查准率$P=\frac{TP}{TP+FP}$作为性能度量$\ell$
原式:
$ E_{ote}(\zeta _a|X,f)=\sum\limits_h\sum\limits_{x\in\chi-X}P(x)\ell(h(x),f(x))P(h|X,\zeta_a)$
证明(无法在LaTex中找到书中的符号采用zeta代替):
$$
E_{ote}(\zeta _a|X,f)=\sum\limits_h\sum\limits_{x\in\chi-X}P(x)\ell(h(x),f(x))P(h|X,\zeta_a)
$$
$$
=\sum\limits_{x\in\chi-X}P(x)\sum\limits_hP(h|X,\zeta_a)\sum\limits_f(\frac{f(x)}{f(x)+h(x)})
$$
$$
=\sum\limits_{x\in\chi-X}P(x)\sum\limits_hP(h|X,\zeta_a)\frac{1}{2}2^{|\chi|}
$$
$$
=\frac{1}{2}2^{|\chi|}\sum\limits_{x\in\chi-X}P(x)\sum\limits_hP(h|X,\zeta_a)
$$
$$
=2^{|\chi|-1}\sum\limits_{x\in\chi-X}P(x)*1
$$
若$f$均匀分布,则有一半的$f$对$x$的预测与$h(x)$不一致,即真正例的数量为真正例与反正例的和的一半
1.5
类似于今日头条的推荐列表的推荐系统,Google的广告系统等。Facebook的图片分类程序,电子邮件垃圾邮件筛选器
#### 扩展阅读
1.[机器学习之性能度量](https://blog.csdn.net/hustqb/article/details/71109012)https://blog.csdn.net/hustqb/article/details/71109012