分享

机器学习基础-机器学习发展历程

问题导读

1.机器学习Basic概念
2.基本术语
3.机器学习推演方式
4.机器学习发展历程
5.机器学习应用现状





1.机器学习Basic概念
       机器学习用以模拟人类活动的经验论做出决策判断。
       机器学习是一门致力于研究如何通过计算的手段,利用经验改善系统自身的性能。在计算机系统中,"经验"常以"数据"形式存在。
              研究内容:关于在计算机上产生"模型"(model)的算法,即"学习算法"(learning algorithm).
              通过学习算法,把经验数据提供给它,它就能基于这些数据产生模型留在面对新的情况时(一幅图),模型会提供相应判断(图上画的是什么)。
       这里用"模型"泛指全局性结果(例如决策树),"模式"泛指局部性结果(如一条规则)
2.基本术语
       (1).数据集
        定义:记录的集合称为"数据集". (data set),
                  其中每条记录是关于一个事件或对象的描述,称为一个"示例"(instance)或者样本(sample). 反映事件或对象在某方面的表现或性质的事项。
       假定收集的数据以为k-v方式表示。
                如:水果的"色泽","味道","叶子"称为"属性"(attribute)或"特征"(feature)。具体对应的"黑色","酸甜"称为"属性值"。                  
       (2). 属性空间(attribute space)|样本空间(sample space)|输入空间:属性张成的空间。
       (3). 特征向量(feature vector):通过属性描述样本(示例)的多维空间,不同的属性值形成了不同的样本。
                   D={X1,X2,........,Xm}表示包含m个示例的数据集,每个示例由d个属性描述,Xi={Xi1;Xi2,..........;Xid}是d维样本空间中的一个向量。
                   Xij表示Xi在第j个属性上的取值。d称为样本Xi的维度(dimensionality).
       (4).训练过程:
                  在数据中学得模型的过程称为"学习"(learning)|"训练"(training).此过程依赖执行学习算法完成。
                  训练数据(training data):训练过程中使用的数据。
                  训练样本(training sample):训练数据中的每个样本。
                  训练集(training set):训练样本的集合。

                  假设(hypothesis):学习模型对应了某种潜在的规律,潜在规律本身称为"真相"或"真实"(ground-truth)。
                  学习过程本质:是为了找寻或逼近真相。
                  模型在训练过程中可称为"学习器"(learner).它是学习算法做给定数据和参数空间的一个实例化。

                  "标记":关于示例结果的信息。例如"某水果甜"

                  "样例":拥有标记信息的示例。

                  "测试":对模型进行预测的过程。
                  "测试样本":被预测的样本。

                   "泛化":学得模型适应于新样本的能力。强泛化能力模型,适应整个样本空间。
                   "分布":样本的结果维度展示。
                   "独立同分布":获取的每个样本独立地在一个分布上采样获得。
       (5).训练结果
                   依据离散性:
                           分类:预测的结果是离散值。
                           回归:预测的结果是连续值。
                       特别的:当只涉及两个类别的"二分类"任务。其中一个称为正类,另一个则为反类。
                                    涉及多个类别,称为"多分类"任务。
                   "聚类":将训练集中的样本分为若干组,每组称为一个簇,这些自动形成的簇对应潜在概念的划分,有些我们事先不知道的属性,在训练样本中不具有这样的标记信息。
                   依据标记信息有无:
                          监督类学习:含标记信息。代表:分类回归。
                          无监督学习:不含标记信息。代表:聚类。  

3.机器学习的推演方式:
          假设空间
                归纳和演绎是科学推理的两大手段。前者使用特殊到一般的泛化过程。后者是一般到特殊是特化过程。
                归纳学习:从样本中学的学习。
                版本空间:多个假设与训练集一致,那么存在着一个与训练集一致的"假设集合",我们在此称它为版本空间。
          归纳偏好
                 通过回归学习曲线图以及算法公式可以进行分析。

4.机器学习的发展历程:
          机器学习是AI研究到一定程度的产物。二十世纪五六十年代,AI处于"推力期",机器以"逻辑理论家"程序以及"通用问题求解"程序等为代表作。
          二十世纪七十年代中期,AI进入知识期,大量专家系统问世。专家系统出现"知识系统瓶颈"。急需机器自己能够学习知识的能力。
                六七十年代,基于逻辑标识的符号主义学习技术蓬勃发展,代表作结构学习系统基于逻辑的归纳学习系统。概念学习系统等。
                以决策理论为基础的学习技术和强化学习技术也得到发展。代表作N.J.Nilson的"学习机器"等等。
          二十世纪八十年代,"从样例中学习"的一大主流是符号主义学习,其代表包括决策树和基于逻辑的学习。
                典型的决策树学习以信息论为基础,以信息熵为目标。直接模拟了人类对概念进行判定的树形流程。
                基于逻辑学习的著名代表是归纳逻辑程序设计,ILP.可看做机器学习与逻辑程序设计的交叉。
                此时机器学习被视为解决"知识工程瓶颈问题的关键"。
          二十世纪九十年代,"从样例中学习"的另一个主流是神经连接主义学习。
          二十世纪九十年代中期,"统计学习"迅速占领主流舞台。代表技术是支持向量机SVM,以及更一般的核方法。
          二十一世纪初,连接主义以"机器学习"为名的浪潮掀起,所谓"深度学习",狭义上就是"很多层"的神经网络。

5.机器学习的应用现状:
          过去二十年,人类收集,存储,传输,处理数据的能力得到提升,机器学习顺应时代,通过有效的分析利用的计算机算法,对这些信息进行处理。
          今天,无论,多媒体,图形学,还是网络通信,软件工程,以及体系结构,芯片设计,都能找到机器学习身影,尤其是计算机视觉,自然语言处理等"计算机应用技术"领域。
          机器学习还为许多交叉学科提供了技术支持,比如"生物信息学"。
          科研手段从传统的"理论+实验"走向今天的"理论+实验+计算"。计算的目的往往是数据分析,数据科学的核心是通过分析数据获取价值。







没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条