[TOC]

概述

本系列的目是详细叙述当前移动端Int8的方方面面，从最底层的Int8的汇编层实现原理以及汇编性能优化手段，到中间层的移动框架的配套代码实现（标准就以NCNN为例吧），以及上层对应的PC端量化方法（各种论文思路）总结及实现，和最后模型端re-train的方法、策略及指标介绍。

此外，利用PowerPerf（一种专门针对ARM CPU应用性能优化而开发的调试工具）对卷积kernel（汇编算子）各项硬件参数指标进行量化优化也是本文的重点，旨在提炼出一套通用的汇编代码调优方法论，从而使得PowerPerf能适用于所有移动端CPU性能优化场景。

背景

尽管模型size在不断地压缩，但是其计算量通常还是有一两百MFLOPS的样子，这个计算量对于目前的（中低端）移动端CPU算力来说，还是有点吃力的，因此模型端做了最大的努力，移动端也要不甘示弱努力加油！

通常移动端加速的方案时分CPU派跟GPU派的，目前在低端机型上arm的mali GPU性能较差，所以基本配备的还是CPU方案，而中高端机其配备的GPU大部分就是高通的了，其性能整体比CPU强劲，因此，目前在不同的定位平台上不同的方案各有优势，各自根据具体的场景适配选择方案即可。

preview

上图1-1是前一阵子（2018.7.12）ARM在腾讯做介绍的ppt，可以看到性能可观！！！可以看到arm在cpu这块会针对性地加强AI能力，我们再看个截图：

INT8量化原理

目前最简单的实现方案是英伟达的tensorRT方案，直接量化，无需retrain，实现简单；

其次就是谷歌的那套方案，稍显复杂需要retrain；

retrain的要求就是，你的权值、激活值（实测对最终精度的影响不是很大）都必须是分布比较均匀的，也就是方差不要太大。其次是能否控制每层的输出在一定的范围内，这对我们做int8量化时，溢出的处理很有帮助。

NVIDIA的方案是公开了的，但是并没有开源，也就是说你只能用他的那一套工具（tensorRT）来进行量化、部署，当然很正常的，我们也想用他的量化校准部分获取校准参数，然后移动端直接用，目前发现是导不出来这些中间参数的，而且也没源码，在安装包内的python借口也是调用的so文件；它们给的ppt链接如下：

接下来我在这章将详细分析其原理（python实现单独拿一篇来讲，因为里面有一些小细节需要说清楚），并将在实现过程中碰到的坑一一解剖之（也就是ppt中说的一个很简单的思路，但是在实现的时候是有很多小细节是不确定的，需要一一验证的，NVIDIA的ppt是不会告诉你这些细节的，需要我们来好好理解消化）。

我们首先整体过一遍原理：

我们的目的是把原来的float 32bit 的卷积操作（乘加指令）转换为int8的卷积操作，这样计算就变为原来的1/4，但是访存并没有变少哈，因为我们是在kernel里面才把float32变为int8进行计算的。

最粗糙、最本质的原理就是这个图：