机器学习基础-机器学习发展历程

问题导读

1.机器学习Basic概念
2.基本术语
3.机器学习推演方式
4.机器学习发展历程
5.机器学习应用现状

1.机器学习Basic概念
   机器学习用以模拟人类活动的经验论做出决策判断。
   机器学习是一门致力于研究如何通过计算的手段，利用经验改善系统自身的性能。在计算机系统中，"经验"常以"数据"形式存在。
            研究内容：关于在计算机上产生"模型"(model)的算法，即"学习算法"(learning algorithm).
            通过学习算法，把经验数据提供给它，它就能基于这些数据产生模型留在面对新的情况时(一幅图)，模型会提供相应判断（图上画的是什么）。
   这里用"模型"泛指全局性结果（例如决策树）,"模式"泛指局部性结果（如一条规则）
2.基本术语
   (1).数据集
      定义：记录的集合称为"数据集". (data set),
               其中每条记录是关于一个事件或对象的描述，称为一个"示例"(instance)或者样本(sample). 反映事件或对象在某方面的表现或性质的事项。
   假定收集的数据以为k-v方式表示。
            如：水果的"色泽"，"味道","叶子"称为"属性"(attribute)或"特征"(feature)。具体对应的"黑色","酸甜"称为"属性值"。
   (2). 属性空间(attribute space)|样本空间(sample space)|输入空间：属性张成的空间。
   (3). 特征向量(feature vector)：通过属性描述样本(示例)的多维空间,不同的属性值形成了不同的样本。
               D={X1,X2,........,Xm}表示包含m个示例的数据集，每个示例由d个属性描述，Xi={Xi1;Xi2,..........;Xid}是d维样本空间中的一个向量。
               Xij表示Xi在第j个属性上的取值。d称为样本Xi的维度(dimensionality).
   (4).训练过程：
               在数据中学得模型的过程称为"学习"(learning)|"训练"(training).此过程依赖执行学习算法完成。
               训练数据(training data)：训练过程中使用的数据。
               训练样本(training sample)：训练数据中的每个样本。
               训练集(training set):训练样本的集合。

               假设(hypothesis):学习模型对应了某种潜在的规律，潜在规律本身称为"真相"或"真实"(ground-truth)。
               学习过程本质:是为了找寻或逼近真相。
               模型在训练过程中可称为"学习器"(learner).它是学习算法做给定数据和参数空间的一个实例化。

               "标记"：关于示例结果的信息。例如"某水果甜"

               "样例"：拥有标记信息的示例。

               "测试"：对模型进行预测的过程。
               "测试样本"：被预测的样本。

               "泛化"：学得模型适应于新样本的能力。强泛化能力模型，适应整个样本空间。
               "分布"：样本的结果维度展示。
               "独立同分布"：获取的每个样本独立地在一个分布上采样获得。
   (5).训练结果
               依据离散性：
                        分类：预测的结果是离散值。
                        回归：预测的结果是连续值。
                     特别的：当只涉及两个类别的"二分类"任务。其中一个称为正类，另一个则为反类。
                                 涉及多个类别，称为"多分类"任务。
               "聚类"：将训练集中的样本分为若干组，每组称为一个簇，这些自动形成的簇对应潜在概念的划分，有些我们事先不知道的属性，在训练样本中不具有这样的标记信息。
               依据标记信息有无：
                        监督类学习:含标记信息。代表:分类回归。
                        无监督学习:不含标记信息。代表:聚类。

3.机器学习的推演方式：
      假设空间
            归纳和演绎是科学推理的两大手段。前者使用特殊到一般的泛化过程。后者是一般到特殊是特化过程。
            归纳学习:从样本中学的学习。
            版本空间:多个假设与训练集一致，那么存在着一个与训练集一致的"假设集合"，我们在此称它为版本空间。
      归纳偏好
               通过回归学习曲线图以及算法公式可以进行分析。

4.机器学习的发展历程：
      机器学习是AI研究到一定程度的产物。二十世纪五六十年代，AI处于"推力期"，机器以"逻辑理论家"程序以及"通用问题求解"程序等为代表作。
      二十世纪七十年代中期，AI进入知识期，大量专家系统问世。专家系统出现"知识系统瓶颈"。急需机器自己能够学习知识的能力。
            六七十年代，基于逻辑标识的符号主义学习技术蓬勃发展，代表作结构学习系统基于逻辑的归纳学习系统。概念学习系统等。
            以决策理论为基础的学习技术和强化学习技术也得到发展。代表作N.J.Nilson的"学习机器"等等。
      二十世纪八十年代，"从样例中学习"的一大主流是符号主义学习，其代表包括决策树和基于逻辑的学习。
            典型的决策树学习以信息论为基础，以信息熵为目标。直接模拟了人类对概念进行判定的树形流程。
            基于逻辑学习的著名代表是归纳逻辑程序设计，ILP.可看做机器学习与逻辑程序设计的交叉。
            此时机器学习被视为解决"知识工程瓶颈问题的关键"。
      二十世纪九十年代，"从样例中学习"的另一个主流是神经连接主义学习。
      二十世纪九十年代中期，"统计学习"迅速占领主流舞台。代表技术是支持向量机SVM，以及更一般的核方法。
      二十一世纪初，连接主义以"机器学习"为名的浪潮掀起，所谓"深度学习"，狭义上就是"很多层"的神经网络。

5.机器学习的应用现状：
      过去二十年，人类收集，存储，传输，处理数据的能力得到提升，机器学习顺应时代，通过有效的分析利用的计算机算法，对这些信息进行处理。
      今天，无论，多媒体，图形学，还是网络通信，软件工程，以及体系结构，芯片设计，都能找到机器学习身影，尤其是计算机视觉，自然语言处理等"计算机应用技术"领域。
      机器学习还为许多交叉学科提供了技术支持，比如"生物信息学"。
      科研手段从传统的"理论+实验"走向今天的"理论+实验+计算"。计算的目的往往是数据分析，数据科学的核心是通过分析数据获取价值。

图文精华

机器学习基础-机器学习发展历程

推荐 /2