机器学习的数学基础介绍
[TOC]
文章参考:https://github.com/search?q=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0
文章参考:https://github.com/apachecn/AiLearning
文章参考:https://apachecn.gitee.io/ailearning/#/docs/ml/1
概述
机器学习(Machine Learning,ML)
是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
深度学习通常又需要哪些数学基础?深度学习里的数学到底难在哪里?通常初学者都会有这些问题,在网络推荐及书本推荐里,经常看到会列出一系列数学科目,比如微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论等等。这些数学知识有相关性,但实际上按照这样的知识范围来学习,学习成本会很久,而且会很枯燥,本章我们通过选举一些数学基础里容易混淆的一些概念做以介绍,帮助大家更好的理清这些易混淆概念之间的关系。
机器学习就是通过学习算法从数据中学习模型的过程
海量的数据
获取有用的信息
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
机器学习已经有了十分广泛的应用,例如: 数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
机器学习场景
例如: 识别动物猫
- 模式识别(官方标准): 人们通过大量的经验,得到结论,从而判断它就是猫。
- 机器学习(数据学习): 人们通过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,得到结论,从而判断它就是猫。
- 深度学习(深入数据): 人们通过深入了解它,发现它会’喵喵’的叫、与同类的猫科动物很类似,得到结论,从而判断它就是猫。(深度学习常用领域: 语音识别、图像识别)
模式识别(pattern recognition): 模式识别是最古老的(作为一个术语而言,可以说是很过时的)。
- 我们把环境与客体统称为“模式”,识别是对模式的一种认知,是如何让一个计算机程序去做一些看起来很“智能”的事情。
- 通过融于智慧和直觉后,通过构建程序,识别一些事物,而不是人,例如: 识别数字。
机器学习(machine learning): 机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。
- 在90年代初,人们开始意识到一种可以更有效地构建模式识别算法的方法,那就是用数据(可以通过廉价劳动力采集获得)去替换专家(具有很多图像方面知识的人)。
- “机器学习”强调的是,在给计算机程序(或者机器)输入一些数据后,它必须做一些事情,那就是学习这些数据,而这个学习的步骤是明确的。
- 机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。
深度学习(deep learning): 深度学习是非常崭新和有影响力的前沿领域,我们甚至不会去思考-后深度学习时代。
- 深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
关于具体的学习文档:
机器学习已应用于多个领域,远远超出大多数人的想象,横跨: 计算机科学、工程技术和统计学等多个学科。
- 搜索引擎: 根据你的搜索点击,优化你下次的搜索结果,是机器学习来帮助搜索引擎判断哪个结果更适合你(也判断哪个广告更适合你)。
- 垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
- 超市优惠券: 你会发现,你在购买小孩子尿布的时候,售货员会赠送你一张优惠券可以兑换6罐啤酒。
- 邮局邮寄: 手写软件自动识别寄送贺卡的地址。
- 申请贷款: 通过你最近的金融活动信息进行综合评定,决定你是否合格。
机器学习专业术语
- 模型(model): 计算机层面的认知
- 学习算法(learning algorithm),从数据中产生模型的方法
- 数据集(data set): 一组记录的合集
- 示例(instance): 对于某个对象的描述
- 样本(sample): 也叫示例
- 属性(attribute): 对象的某方面表现或特征
- 特征(feature): 同属性
- 属性值(attribute value): 属性上的取值
- 属性空间(attribute space): 属性张成的空间
- 样本空间/输入空间(samplespace): 同属性空间
- 特征向量(feature vector): 在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
- 维数(dimensionality): 描述样本参数的个数(也就是空间是几维的)
- 学习(learning)/训练(training): 从数据中学得模型
- 训练数据(training data): 训练过程中用到的数据
- 训练样本(training sample):训练用到的每个样本
- 训练集(training set): 训练样本组成的集合
- 假设(hypothesis): 学习模型对应了关于数据的某种潜在规则
- 真相(ground-truth):真正存在的潜在规律
- 学习器(learner): 模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
- 预测(prediction): 判断一个东西的属性
- 标记(label): 关于示例的结果信息,比如我是一个“好人”。
- 样例(example): 拥有标记的示例
- 标记空间/输出空间(label space): 所有标记的集合
- 分类(classification): 预测是离散值,比如把人分为好人和坏人之类的学习任务
- 回归(regression): 预测值是连续值,比如你的好人程度达到了0.9,0.6之类的
- 二分类(binary classification): 只涉及两个类别的分类任务
- 正类(positive class): 二分类里的一个
- 反类(negative class): 二分类里的另外一个
- 多分类(multi-class classification): 涉及多个类别的分类
- 测试(testing): 学习到模型之后对样本进行预测的过程
- 测试样本(testing sample): 被预测的样本
- 聚类(clustering): 把训练集中的对象分为若干组
- 簇(cluster): 每一个组叫簇
- 监督学习(supervised learning): 典范–分类和回归
- 无监督学习(unsupervised learning): 典范–聚类
- 未见示例(unseen instance): “新样本“,没训练过的样本
- 泛化(generalization)能力: 学得的模型适用于新样本的能力
- 分布(distribution): 样本空间的全体样本服从的一种规律
- 独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。
机器学习种类
监督学习
回归(regression): 预算连续值
分类(classification): 预测离散值
无监督学习
无监督学习是在样本数据没有进行标记的情况下。挖掘出数据内部蕴含的关系
聚类:把相似度比较高的样本聚合再一起,物以类聚
距离:描述了不同样本的特征值之间的相似度
半监督学习
是将有监督学习和无监督学习相结合,综合