[TOC]

概述

文章参考：https://github.com/search?q=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0

文章参考：https://github.com/apachecn/AiLearning

文章参考：https://apachecn.gitee.io/ailearning/#/docs/ml/1

机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义，它为了把无序的数据转换成有用的信息。是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

机器学习就是通过学习算法从数据中学习模型的过程

海量的数据
获取有用的信息

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

机器学习已经有了十分广泛的应用，例如: 数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

机器学习场景

例如: 识别动物猫

模式识别（官方标准）: 人们通过大量的经验，得到结论，从而判断它就是猫。
机器学习（数据学习）: 人们通过阅读进行学习，观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴，得到结论，从而判断它就是猫。
深度学习（深入数据）: 人们通过深入了解它，发现它会’喵喵’的叫、与同类的猫科动物很类似，得到结论，从而判断它就是猫。（深度学习常用领域: 语音识别、图像识别）

模式识别（pattern recognition）: 模式识别是最古老的（作为一个术语而言，可以说是很过时的）。

我们把环境与客体统称为“模式”，识别是对模式的一种认知，是如何让一个计算机程序去做一些看起来很“智能”的事情。
通过融于智慧和直觉后，通过构建程序，识别一些事物，而不是人，例如: 识别数字。

机器学习（machine learning）: 机器学习是最基础的（当下初创公司和研究实验室的热点领域之一）。

在90年代初，人们开始意识到一种可以更有效地构建模式识别算法的方法，那就是用数据（可以通过廉价劳动力采集获得）去替换专家（具有很多图像方面知识的人）。
“机器学习”强调的是，在给计算机程序（或者机器）输入一些数据后，它必须做一些事情，那就是学习这些数据，而这个学习的步骤是明确的。
机器学习（Machine Learning）是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的学科。

深度学习（deep learning）: 深度学习是非常崭新和有影响力的前沿领域，我们甚至不会去思考-后深度学习时代。

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

关于具体的学习文档：

深度学习 VS 机器学习 VS 模式识别

深度学习的百度百科

机器学习已应用于多个领域，远远超出大多数人的想象，横跨: 计算机科学、工程技术和统计学等多个学科。

搜索引擎: 根据你的搜索点击，优化你下次的搜索结果,是机器学习来帮助搜索引擎判断哪个结果更适合你（也判断哪个广告更适合你）。
垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
超市优惠券: 你会发现，你在购买小孩子尿布的时候，售货员会赠送你一张优惠券可以兑换6罐啤酒。
邮局邮寄: 手写软件自动识别寄送贺卡的地址。
申请贷款: 通过你最近的金融活动信息进行综合评定，决定你是否合格。

机器学习专业术语

模型（model）: 计算机层面的认知
学习算法（learning algorithm），从数据中产生模型的方法
数据集（data set）: 一组记录的合集
示例（instance）: 对于某个对象的描述
样本（sample）: 也叫示例
属性（attribute）: 对象的某方面表现或特征
特征（feature）: 同属性
属性值（attribute value）: 属性上的取值
属性空间（attribute space）: 属性张成的空间
样本空间/输入空间（samplespace）: 同属性空间
特征向量（feature vector）: 在属性空间里每个点对应一个坐标向量，把一个示例称作特征向量
维数（dimensionality）: 描述样本参数的个数（也就是空间是几维的）
学习（learning）/训练（training）: 从数据中学得模型
训练数据（training data）: 训练过程中用到的数据
训练样本（training sample）:训练用到的每个样本
训练集（training set）: 训练样本组成的集合
假设（hypothesis）: 学习模型对应了关于数据的某种潜在规则
真相（ground-truth）:真正存在的潜在规律
学习器（learner）: 模型的另一种叫法，把学习算法在给定数据和参数空间的实例化
预测（prediction）: 判断一个东西的属性
标记（label）: 关于示例的结果信息，比如我是一个“好人”。
样例（example）: 拥有标记的示例
标记空间/输出空间（label space）: 所有标记的集合
分类（classification）: 预测是离散值，比如把人分为好人和坏人之类的学习任务
回归（regression）: 预测值是连续值，比如你的好人程度达到了0.9，0.6之类的
二分类（binary classification）: 只涉及两个类别的分类任务
正类（positive class）: 二分类里的一个
反类（negative class）: 二分类里的另外一个
多分类（multi-class classification）: 涉及多个类别的分类
测试（testing）: 学习到模型之后对样本进行预测的过程
测试样本（testing sample）: 被预测的样本
聚类（clustering）: 把训练集中的对象分为若干组
簇（cluster）: 每一个组叫簇
监督学习（supervised learning）: 典范–分类和回归
无监督学习（unsupervised learning）: 典范–聚类
未见示例（unseen instance）: “新样本“，没训练过的样本
泛化（generalization）能力: 学得的模型适用于新样本的能力
分布（distribution）: 样本空间的全体样本服从的一种规律
独立同分布（independent and identically distributed，简称i,i,d.）:获得的每个样本都是独立地从这个分布上采样获得的。

机器学习种类

监督学习

回归（regression）: 预算连续值

分类（classification）: 预测离散值

无监督学习

无监督学习是在样本数据没有进行标记的情况下。挖掘出数据内部蕴含的关系

聚类：把相似度比较高的样本聚合再一起，物以类聚

距离：描述了不同样本的特征值之间的相似度

半监督学习

是将有监督学习和无监督学习相结合，综合