原标题:NVIDIA A30在实际模型训练中的性能表现怎么样?
关键字:NVIDIA(英伟达),图形处理器(GPU),计算机性能
最佳回答:丽台科技
回答字数:493字
NVIDIA A30 Tensor Core GPU是今年新推出的数据中心GPU,它基于最新的NVIDIA Ampere架构构建,将第三代Tensor Core与24GB HBM2显存相结合,并且采用PCIe Gen 4外形规格,适用于各种主流服务器。
NVIDIA A30具备Tensor Float (TF32) 精度,可提供比NVIDIA T4高10倍之多的性能,并且无需更改代码;若使用自动混合精度和FP16,性能可进一步提升2倍,综合起来可将吞吐量提高20倍。具体的性能表现还需要跑应用场景测试,也可参考其他厂商或者用户的训练结果。
联系作者
回答作者:丽台科技
我这边正好有一组基于NVIDIA A30进行的IResNet网络训练数据,下面是测试服务器的参数:
下面是8片A30在训练时的具体性能测试数据:
通过这组测试数据,这边也给到大家几点在使用A30进行训练时的建议:
1、在IResNet-50网络中,通过FP16+TF32混合精度进行训练,Samples/sec可达2640,比FP16的2520和TF32的2250都要高。建议大家在使用A30进行深度神经网络训练时可优先选择混合精度。
2、在同使用FP16+TF32混合精度进行IResNet-50网络训练时,当Batch-size从1024增加到2048,Samples/sec从2640增加到了2910。建议大家在训练时,若没有达到硬件理论性能,可适当增加Batch-size,再进行测试。
3、同使用FP16+TF32混合精度进行训练,且Batch-size同为1024时,在IResNet-50、IResNet-100和IResNet-180网络中,Samples/sec从2640衰减至1680及1030,衰减幅度较为明显。考虑到大家实际需求不同,可根据实际需求进行不同深度网络选择,此次测试的性能衰减数据可供参考。
以上这组数据是Insightface联合超益集伦共同进行测试得出的,下面贴上原始测试数据分享页面:
https://github.com/deepinsight/insightface/blob/master/benchmarks/train/nvidia_a30.md