本帖最后由 zhaorong 于 2019-10-24 15:29 编辑
GitHub开源社区最新公布的AMD ROCm开发库显示AMD GPU将在未来加入对BFloat16(BF16)浮点指令的支持相比现在的FP16浮点可带来巨大的飞跃。
目前Intel Cascade Lake至强Ice Lake酷睿处理器已经支持BF16ARM下一代ARMv8 CPU架构也会加入BF16虽然不
属于IEEE标准规范但它的优势正得到越来越广泛的验证和认可。
BF16可以视为精简版的FP32单精度浮点指令使用8个有效位8个阶位内存和带宽占用减半执行效率大大提升同时又在性能方
面远胜FP16可以大大提升AI人工智能ML机器学习DL深度学习等应用的性能效率不再受限于FP16的性能FP32的效率。
根据模拟BF16相比于FP16带来的性能提升在不同运算类型中少则可达1.6倍多则能够超过4倍。
现代3D游戏渲染不太可能从BF16中获益但是随着GPU越来越多地参与AIMLDL运算BF16的加入必将会给AMD显卡带来强大的加成未来值得期待。