【连载】《机器学习》读书笔记 01

2018/04/08 机器学习

【连载】《机器学习》读书笔记 01


1、概念

机器学习:让机器自动地去学习数据中学习,产生基于经验的模型。机器学习主要研究学习算法。

样本空间/属性空间/输入空间:输入特征/属性张成的空间;

特征向量:一个样本或一个示例称为一个特征向量; 学习/训练:从数据中学习模型的过程,这个过程通过执行某个学习算法来说实现;

样例:拥有标记信息的示例或样本;

标记空间/输出空间:所有标记组成的空间;

有监督学习:分类(二分类、多分类)、回归

无监督学习:聚类

2、模型的泛化能力

泛化能力:学得的模型,适用于新样本的能力,称为模型的泛化能力;具有强泛化能力的模型应该能够适用于整个样本空间;

我们希望训练集的样本对于样本空间具有很好的代表性,于是假设每个样本之间都是独立同分布的。因此,如果我们训练集拥有的样本越多,相应地关于样本空间的信息也就越多,这样越有可能训练出泛化能力强的模型。

归纳与演绎:

归纳:从特殊到一般,即从具体的事实归纳出一般的规律;

演绎:从一般到特殊,即从基本原理推到出具体情况; 机器学习实际上是从样例中学习,因此机器学习是一个归纳的过程。

3、假设空间与归纳偏好

假设空间/函数空间:

机器学习中可能的函数或假设组成的空间。模型是输入空间到输出空间之间的映射,而这样的映射的集合,组成了假设空间。假设空间的确定意味着学习范围的确定。

归纳偏好:

机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好;我们的学习算法必须具有某种偏好,这样才能产出它认为正确的模型。

归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或者价值观。

4、选择模型

一般性原则:

奥卡姆剃刀:如果有多个假设与观察一致,那么选择最简单的那个;但是到底什么叫简单的模型,也很难评判;

没有免费午餐原则(NFL):如果认为所有的问题同等重要(正类和负类),那么不同算法的期望性能是相同的;但是实际上,我们只关注自己想解决的问题,NFL告诉我们,如果要谈论算法的性能,要结合实际的问题和需求;

5、机器学习与数据挖掘

数据挖掘是从海量的数据中发掘知识,数据库技术为数据挖掘提供数据管理技术,机器学习和统计学的研究为数据挖掘提供数据分析的技术;

统计学主要通过机器学习对数据挖掘产生影响,而机器学习和数据库则是数据挖掘的两大支撑;

6、推荐的书

  • Mitchell 《Machine Learning》
  • Duda 《Pattern Classification》
  • 李航 《统计机器学习》  

搜索

    Table of Contents