[TOC]

概述

文章参考:https://github.com/search?q=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0

文章参考:https://github.com/apachecn/AiLearning

文章参考:https://apachecn.gitee.io/ailearning/#/docs/ml/1

机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

机器学习就是通过学习算法从数据中学习模型的过程

  1. 海量的数据

  2. 获取有用的信息

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

机器学习已经有了十分广泛的应用,例如: 数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

机器学习场景

例如: 识别动物猫

  • 模式识别(官方标准): 人们通过大量的经验,得到结论,从而判断它就是猫。
  • 机器学习(数据学习): 人们通过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,得到结论,从而判断它就是猫。
  • 深度学习(深入数据): 人们通过深入了解它,发现它会’喵喵’的叫、与同类的猫科动物很类似,得到结论,从而判断它就是猫。(深度学习常用领域: 语音识别、图像识别)

模式识别(pattern recognition): 模式识别是最古老的(作为一个术语而言,可以说是很过时的)。

  • 我们把环境与客体统称为“模式”,识别是对模式的一种认知,是如何让一个计算机程序去做一些看起来很“智能”的事情。
  • 通过融于智慧和直觉后,通过构建程序,识别一些事物,而不是人,例如: 识别数字。

机器学习(machine learning): 机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。

  • 在90年代初,人们开始意识到一种可以更有效地构建模式识别算法的方法,那就是用数据(可以通过廉价劳动力采集获得)去替换专家(具有很多图像方面知识的人)。
  • “机器学习”强调的是,在给计算机程序(或者机器)输入一些数据后,它必须做一些事情,那就是学习这些数据,而这个学习的步骤是明确的。
  • 机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。

深度学习(deep learning): 深度学习是非常崭新和有影响力的前沿领域,我们甚至不会去思考-后深度学习时代。

  • 深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。

关于具体的学习文档:

深度学习 VS 机器学习 VS 模式识别

深度学习的百度百科

机器学习已应用于多个领域,远远超出大多数人的想象,横跨: 计算机科学、工程技术和统计学等多个学科。

  • 搜索引擎: 根据你的搜索点击,优化你下次的搜索结果,是机器学习来帮助搜索引擎判断哪个结果更适合你(也判断哪个广告更适合你)。
  • 垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
  • 超市优惠券: 你会发现,你在购买小孩子尿布的时候,售货员会赠送你一张优惠券可以兑换6罐啤酒。
  • 邮局邮寄: 手写软件自动识别寄送贺卡的地址。
  • 申请贷款: 通过你最近的金融活动信息进行综合评定,决定你是否合格。

机器学习专业术语

  • 模型(model): 计算机层面的认知
  • 学习算法(learning algorithm),从数据中产生模型的方法
  • 数据集(data set): 一组记录的合集
  • 示例(instance): 对于某个对象的描述
  • 样本(sample): 也叫示例
  • 属性(attribute): 对象的某方面表现或特征
  • 特征(feature): 同属性
  • 属性值(attribute value): 属性上的取值
  • 属性空间(attribute space): 属性张成的空间
  • 样本空间/输入空间(samplespace): 同属性空间
  • 特征向量(feature vector): 在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
  • 维数(dimensionality): 描述样本参数的个数(也就是空间是几维的)
  • 学习(learning)/训练(training): 从数据中学得模型
  • 训练数据(training data): 训练过程中用到的数据
  • 训练样本(training sample):训练用到的每个样本
  • 训练集(training set): 训练样本组成的集合
  • 假设(hypothesis): 学习模型对应了关于数据的某种潜在规则
  • 真相(ground-truth):真正存在的潜在规律
  • 学习器(learner): 模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
  • 预测(prediction): 判断一个东西的属性
  • 标记(label): 关于示例的结果信息,比如我是一个“好人”。
  • 样例(example): 拥有标记的示例
  • 标记空间/输出空间(label space): 所有标记的集合
  • 分类(classification): 预测是离散值,比如把人分为好人和坏人之类的学习任务
  • 回归(regression): 预测值是连续值,比如你的好人程度达到了0.9,0.6之类的
  • 二分类(binary classification): 只涉及两个类别的分类任务
  • 正类(positive class): 二分类里的一个
  • 反类(negative class): 二分类里的另外一个
  • 多分类(multi-class classification): 涉及多个类别的分类
  • 测试(testing): 学习到模型之后对样本进行预测的过程
  • 测试样本(testing sample): 被预测的样本
  • 聚类(clustering): 把训练集中的对象分为若干组
  • 簇(cluster): 每一个组叫簇
  • 监督学习(supervised learning): 典范–分类和回归
  • 无监督学习(unsupervised learning): 典范–聚类
  • 未见示例(unseen instance): “新样本“,没训练过的样本
  • 泛化(generalization)能力: 学得的模型适用于新样本的能力
  • 分布(distribution): 样本空间的全体样本服从的一种规律
  • 独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。

机器学习种类

监督学习

回归(regression): 预算连续值

分类(classification): 预测离散值

image-20210809231307487

无监督学习

无监督学习是在样本数据没有进行标记的情况下。挖掘出数据内部蕴含的关系

聚类:把相似度比较高的样本聚合再一起,物以类聚

距离:描述了不同样本的特征值之间的相似度

半监督学习

是将有监督学习和无监督学习相结合,综合