FPGA 的回归:AI 时代,算力终于开始“量体裁衣”了
作者:Echo_Wish
这两年你要是混在 AI、算力、芯片相关的圈子里,大概率会发现一个有点“反常识”的现象:
大家一边疯狂谈 GPU,一边又开始重新认真聊 FPGA 了。
甚至不少人会一脸疑惑地问我:
FPGA 不是十几年前就玩过了吗?
这玩意儿怎么又回来了?
我通常会笑着回一句:
不是 FPGA 回来了,是 通用计算快扛不住 AI 的“个性化需求”了。
今天这篇文章,我就不从教科书定义写起,而是站在一个长期搞系统、搞算力、搞工程落地的视角,跟你聊聊:
为什么在 AI 时代,FPGA 反而开始显得“刚刚好”。
一、AI 真的把 GPU “用到极限”了吗?
先说一句不太政治正确的话:
GPU 很强,但它并不是为你这个模型“量身定做”的。
GPU 的设计哲学是啥?
- 大规模并行
- 统一架构
- 面向通用计算模型(SIMT)
这在 训练阶段 简直是王炸。
但到了 推理阶段,尤其是下面这些场景:
- 在线实时推理(延迟 < 10ms)
- 边缘设备(功耗 < 几瓦)
- 固定模型、固定算子
- 流式数据处理
GPU 的“通用性”,反而开始变成一种浪费。
👉 很多时候你会发现:
- 用了很贵的 GPU
- 实际算力只吃了 30%
- 剩下的都在等内存、等调度、等框架
这时候,FPGA 的价值就出来了。
二、FPGA 的核心优势,其实一句话就够
如果非要用一句大白话总结 FPGA:
你想让硬件“长成什么样”,它就能“变成什么样”。
这在 AI 时代意味着什么?
- 算子是固定的
- 数据流是确定的
- 精度是可裁剪的
- 延迟是可预测的
FPGA 天然适合“定制化计算”。
三、别再把 FPGA 想成“写 Verilog 的古董”
很多人一听 FPGA,脑子里立马浮现:
- Verilog / VHDL
- 时序约束
- 波形仿真
- 烧脑到掉头发
我必须替 FPGA 说句公道话:
今天的 FPGA,早就不是“只有硬件工程师才能碰”的东西了。
1️⃣ HLS(高层次综合)已经很成熟
现在你可以用 C / C++ / OpenCL 写核心逻辑。
举个非常简化的例子:
一个向量加法的 HLS 描述(示意)
void vec_add(const int* a, const int* b, int* c, int n) {
#pragma HLS PIPELINE
for (int i = 0; i < n; i++) {
c[i] = a[i] + b[i];
}
}
背后发生了什么?
- 循环被展开
- pipeline 自动生成
- 数据通路直接固化在硬件里
👉 你写的是“逻辑”,FPGA 帮你“造电路”。
四、为什么说 FPGA 特别适合 AI 推理?
我们拆几个关键点说。
1️⃣ 数据流友好
AI 推理,本质是:
数据 → 算子 → 数据 → 算子
FPGA 是典型的 dataflow 架构:
- 不需要复杂调度
- 不需要上下文切换
- 数据一到就开始算
这对延迟非常友好。
2️⃣ 精度可裁剪,功耗直线下降
GPU 通常是:
- FP32 / FP16
- 统一精度
FPGA 可以干嘛?
- INT8
- INT4
- 甚至 Binary Neural Network
一个简单的示意:
assign out = (a & b); // 二值神经网络里的“乘法”
你没看错,
在 FPGA 里,“乘法”可以退化成一个 AND 门。
👉 功耗、面积、延迟,直接三杀。
3️⃣ 延迟是“确定的”,不是“期望值”
在金融、工业、自动驾驶这些领域:
最怕的不是慢,而是“偶尔慢一下”。
FPGA 的执行路径是:
- 固定时钟
- 固定流水线
- 固定延迟
你可以非常明确地说:
这个推理,永远是 3.2 μs
这在很多实时系统里,是 GPU 给不了的安全感。
五、FPGA + AI 的真实应用场景
我不想空谈概念,直接给你几个我见过、也靠谱的场景。
1️⃣ 数据中心推理加速
- 推荐系统
- CTR 预估
- 简化 Transformer 推理
FPGA 放在 PCIe 卡上,
专门跑 固定模型 + 高频请求。
👉 GPU 负责“重活”,FPGA 负责“快活”。
2️⃣ 边缘 AI
比如:
- 工业相机缺陷检测
- 视频流人脸识别
- 雷达 / 传感器融合
FPGA 的优势在于:
- 低功耗
- 高并行
- 无操作系统依赖
3️⃣ 网络 + AI 融合场景
这是 FPGA 的老本行了:
- SmartNIC
- 网络包处理 + 推理
- 实时风控
数据不出网卡就完成计算,
延迟直接打到极低。
六、FPGA 并不是“万能解药”
说到这,我也必须泼点冷水。
FPGA 不适合:
- 模型频繁变化
- 算子高度动态
- 快速试错阶段
👉 训练阶段,GPU 依然是王。
FPGA 更适合:
模型稳定后,对性能 / 功耗 / 延迟极致优化的阶段
七、为什么我说:FPGA 的回归,是一种“理性回归”
在 AI 早期,大家迷信:
- 更大的模型
- 更通用的算力
现在开始意识到:
算力不是越通用越好,而是越“合适”越值钱
FPGA 的回归,本质上是:
- 从“堆算力”
- 回到“算力设计”
它不追求“什么都能干”,
而是追求:
把这一件事,干到极致。
八、写在最后
如果你问我一句很实在的话:
FPGA 值不值得现在重新学?
我的答案是:
- 如果你做的是 系统 / 架构 / 加速 / 工程落地
- 如果你关心 性能、功耗、确定性
- 如果你已经被“通用算力的浪费”折磨过
那 FPGA,
真的值得你再认真看一眼。
它不喧哗、不浮躁,
但在 AI 时代,它正在悄悄变成:
最懂你需求的那块算力。