备案控制台

开发者社区雷锋网文章正文

如何用FPGA加速卷积神经网络(CNN)？

2017-10-24 2396

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 过早地执着于fpga的技术细节(用hdl还是hls，用啥芯片，用啥接口)容易只见树木不见森林。现在software define network/flash/xxx，已然大势所趋。之前开组会时跟同志们聊过，算法是纲，纲举目张；软件是妈，软件是爹，软件比基金委都亲。

以下主要引用自西安邮电大学李涛老师关于连接智能和符号智能的报告，以及fpl2016上ASU的 Yufei Ma的文章和slide，推荐大家去读下原文。

Scalable and Modularized RTL Compilation of Convolutional Neural Network onto FPGA

地址：http://fpl2016.org/slides/S5b_1.pdf

我做过一些计算加速的工作，个人感觉要入手先要想好几个问题: 要加速的是什么应用，应用的瓶颈是什么，再针对这个瓶颈，参考前人工作选择合适的方案。

过早地执着于fpga的技术细节(用hdl还是hls，用啥芯片，用啥接口)容易只见树木不见森林。现在software define network/flash/xxx，已然大势所趋。之前开组会时跟同志们聊过，算法是纲，纲举目张；软件是妈，软件是爹，软件比基金委都亲。所以推荐先把cnn的算法看一下，拿一些开源代码跑一下经典的例子(lenet, alexnet, etc)看好输入输出，摸清算法。

如何用FPGA加速卷积神经网络(CNN)？

比如以下是一个lenet的cpp和opencl的实现：

nachiket/papaa-opencl

地址：https://github.com/nachiket/papaa-opencl

以下图片源自Yufei Ma的Slide。

如何用FPGA加速卷积神经网络(CNN)？

可以看到cnn算法主要由conv ，pooling，norm等几个部分组成。工作时将image跟weight灌进去，最终得到预测结果。

接下来拿profiler(比如perf)去分析下软件算法，找找热点和性能瓶颈。在cnn里面主要耗时的就是conv二维卷积了。性能瓶颈也主要在于卷积时需要大量乘加运算，参与计算的大量weight参数会带来的很多访存请求。

接下来考察下前人的工作和当前的灌水热点。按理说这种大量的乘加运算用dsp应该不错，但是在cnn中大家并不需要这么大的位宽，有时候8位就够了。dsp动辄32/64位的乘加器实在是浪费。于是乎大家就开始减位宽，多堆几个运算单元。面对大量的访存请求，大家就开始设计各种tricky的缓存了。

以下是大家的一些灌水方向：

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

于是就有了以下各路硬件设计：

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

有人照着dsp风格去设计加速器：

如何用FPGA加速卷积神经网络(CNN)？

ceva也出了一系列面向CNN的IP：

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

有人用了脉动阵列或者Dataflow的风格：

如何用FPGA加速卷积神经网络(CNN)？

有人设计了专用的芯片比如计算所的Cambricon：

如何用FPGA加速卷积神经网络(CNN)？

还有的就是你提到的fpga。

所有的事情到了硬件层面实际上能用的手段也就有限了。不外乎堆资源和切流水两招。再不然就是做一些bit level的小技巧，比如乘法器变查表之类的，这些技巧在很多二十年前的dsp教材里面都描述得很细致了，拿来用就好。比如这本书亲测有效。

VLSI Digital Signal Processing System--Design and Implementation by Keshab

典型的fpga实现可以参考Yufei Ma的文章，不论是conv，还是pooling，依葫芦画瓢设计data path，切好流水，再想好状态机加上控制信号。这些就看大家撸rtl的基本功了。

比如Conv模块如下图，主要拿一堆乘法器以及加法器树搭好data path，切好流水，接着加上控制信号。

如何用FPGA加速卷积神经网络(CNN)？

Pooling也是大同小异：

如何用FPGA加速卷积神经网络(CNN)？

还有Norm：

如何用FPGA加速卷积神经网络(CNN)？

最后把这些模块通过router连接，外面再套一层控制模块，封成ip就好了。

如何用FPGA加速卷积神经网络(CNN)？

剩下的就是集成进你的系统(microblaze, nios还是arm，配好dma，写好灌数据的驱动，这些就是各有各的道儿了)。推荐动手码rtl前先写好文档，约定好端口，寄存器和软件api，否则边写边改容易乱。

整体来说，cnn这种应用流水线控制相对cpu简单，没有写cpu的那一堆hazard让人烦心，也不用写汇编器啥的。太大的cnn放在fpga里挺费劲，做出创新很难，但是fpga上写个能用的lenet这种级别的cnn还是挺容易的。最后还可以依照惯例跟cpu比性能，跟gpu比功耗。

本文作者：Non

本文转自雷锋网禁止二次转载，原文链接

文章标签：

FPGA云服务器

算法

机器学习/深度学习

异构计算

关键词：

卷积神经网络cnn

网络cnn

卷积神经网络

卷积网络cnn

卷积CNN

玄学酱

目录

相关文章

shuj

|

9天前

|

机器学习/深度学习人工智能自然语言处理

深度学习中的卷积神经网络（CNN）：从理论到实践

本文将深入浅出地介绍卷积神经网络（CNN）的工作原理，并带领读者通过一个简单的图像分类项目，实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据，并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈，这篇文章都将为你提供宝贵的知识和技能。

shuj

39 7 7

程序员成长之路

|

8天前

|

机器学习/深度学习人工智能自然语言处理

探索深度学习中的卷积神经网络（CNN）及其在现代应用中的革新

探索深度学习中的卷积神经网络（CNN）及其在现代应用中的革新

程序员成长之路

27 1 1

小周sir

|

12天前

|

机器学习/深度学习人工智能网络架构

深入理解深度学习中的卷积神经网络（CNN）

深入理解深度学习中的卷积神经网络（CNN）

小周sir

33 1 1

游客qf4jmczx4xu2y

|

14天前

|

机器学习/深度学习人工智能算法框架/工具

深度学习中的卷积神经网络（CNN）入门

【10月更文挑战第41天】在人工智能的璀璨星空下，卷积神经网络（CNN）如一颗耀眼的新星，照亮了图像处理和视觉识别的路径。本文将深入浅出地介绍CNN的基本概念、核心结构和工作原理，同时提供代码示例，带领初学者轻松步入这一神秘而又充满无限可能的领域。

游客qf4jmczx4xu2y

33 3 3

Star时光

|

15天前

|

机器学习/深度学习人工智能算法

深入理解深度学习中的卷积神经网络（CNN）

深入理解深度学习中的卷积神经网络（CNN）

Star时光

24 1 1

请看我回答~

|

19天前

|

机器学习/深度学习人工智能算法框架/工具

深度学习中的卷积神经网络（CNN）及其在图像识别中的应用

【10月更文挑战第36天】探索卷积神经网络（CNN）的神秘面纱，揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念，并通过实际代码示例，展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解，这篇文章都将为你提供有价值的见解。

请看我回答~

56 5 5

跃@sir

|

14天前

|

机器学习/深度学习自然语言处理

深入理解深度学习中的卷积神经网络（CNN）

深入理解深度学习中的卷积神经网络（CNN）

跃@sir

37 0 0

Star时光

|

20天前

|

机器学习/深度学习人工智能自动驾驶

深入解析深度学习中的卷积神经网络（CNN）

深入解析深度学习中的卷积神经网络（CNN）

Star时光

35 0 0

肥猪肥猪-17824

|

2月前

|

机器学习/深度学习人工智能算法框架/工具

深度学习中的卷积神经网络（CNN）及其在图像识别中的应用

【10月更文挑战第7天】本文将深入探讨卷积神经网络（CNN）的基本原理，以及它如何在图像识别领域中大放异彩。我们将从CNN的核心组件出发，逐步解析其工作原理，并通过一个实际的代码示例，展示如何利用Python和深度学习框架实现一个简单的图像分类模型。文章旨在为初学者提供一个清晰的入门路径，同时为有经验的开发者提供一些深入理解的视角。

肥猪肥猪-17824

123 1 1

Deephub

|

21天前

|

机器学习/深度学习计算机视觉网络架构

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

纵观近年的顶会论文和研究热点，我们不得不承认一个现实：CNN相关的研究论文正在减少，曾经的"主角"似乎正逐渐淡出研究者的视野。

Deephub

56 11 11

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

雷锋网

热门文章

最新文章

访问windows 共享提示"找不到网络路径" 排查过程

调整DC的网络对网络是否会有影响?

网络通信第五课生产环境下的Post通信

Python网络编程1--笔记

Linux 2 unit7 挂载网络共享

AT&T、IBM等公司结成新的物联网网络安全联盟

全球5%网络已开始使用IPv6

美国：将日本纳入网络攻击防御保护伞

富士通咨询在博科SDN架构上构建新一代IP网络以支持全球业务增长

美国联邦法庭力挺FCC“网络中立”规则

使用Python实现卷积神经网络（CNN）

基于WOA优化的CNN-LSTM-Attention的时间序列回归预测matlab仿真

基于WOA优化的CNN-GRU-Attention的时间序列回归预测matlab仿真

【AI 初识】什么是卷积神经网络（CNN）？

深度学习中的卷积神经网络（CNN）详解

【Python机器学习专栏】卷积神经网络（CNN）的原理与应用

基于PSO优化的CNN-GRU-Attention的时间序列回归预测matlab仿真

TensorFlow 2keras开发深度学习模型实例：多层感知器（MLP），卷积神经网络（CNN）和递归神经网络（RNN）

【视频】少样本图像分类？迁移学习、自监督学习理论和R语言CNN深度学习卷积神经网络实例

揭秘卷积神经网络 (CNN)：深度学习的视觉巨匠

相关课程

更多

云计算工程师解析与实战-网络专家篇（体验版）

云网络白皮书-阿里云网络系列课

企业上云攻略-阿里云网络产品应用系列教程

Linux网络进阶 - TCP/IP协议及OSI七层模型

网络管理者必知-2分钟了解新出台的《网络安全法》

神经网络概览及算法详解

相关电子书

更多

Session：更加安全、可靠的数据中心网络产品更新

基于神经网络的语言合成

机器能理解上下文吗-RNN和LSTM神经网络的原理及应用

相关实验场景

更多

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

函数计算一键部署AI大语言模型并会话

【文生图】一键部署Stable Diffusion基于函数计算

在云上部署ChatGLM2-6B大模型（GPU版）

下一篇

阿里云无影云电脑免费试用，最长可试用3个月