个人学术主页

本文工作是 Cambricon-F：一种具有分形冯·诺伊曼体系结构的机器学习计算机的延续。

Cambricon-F通过分形执行实现了编程与系统规模无关的重要性质，缓解了机器学习计算机的编程难题。但是，该计算机上的分形执行是由硬件控制器操控实现的，只支持少数常用基本算子（卷积、池化等），其他功能需要通过这些基本算子串行拼搭来实现。我们发现，用有限、固定的指令集支持复杂多变的实际应用负载时，会产生失效现象，影响机器的计算效率。

在支持传统的卷积神经网络等规整的算法时，该机能够达到最优效率。但在复杂多变的应用场景下，即使应用本身符合分形运算的定义，也会产生失效现象。失效现象定义为某些应用执行在分形计算机上时，计算或通信复杂度发生了改变。本文还以TopK和3DConv两种并不十分复杂的算子举例说明了失效现象。

举一个直观的例子：用户希望执行应用“贝叶斯网络”，该应用是符合分形运算定义的，本能够以分形方式高效执行；但由于Cambricon-F中并不存在专门的“贝叶斯网络”指令，该应用只能分解为一系列基本运算后串行执行。如果能够扩展指令集，增加一条BAYES分形指令，就可以在达到叶子节点前一直保持分形执行，显著提升计算效率了。

据此，我们改进了Cambricon-F的架构，提出具有分形可重配指令集结构的Cambricon-FR。理论地看，Cambricon-F是一台分形计算机，而Cambricon-FR则可以称为一台通用分形计算机； Cambricon-F能够在某种特定应用负载上实现高效计算，Cambricon-FR则能够在复杂多变的应用负载上实现高效计算。

论文发表于《IEEE Transactions on Computers》。[DOI]

Cambricon-FR：分形可重配指令集结构计算机（通用分形计算机）