随着人工智能的飞速发展,大模型训练成为了研究的热点。
为了提高训练速度、节省内存占用并降低训练成本,各种优化技术应运而生。
其中,混合精度训练技术通过其独特的数值表示方式,能够在保持一定精度的同时,显著提高大模型训练的速度和效率。
最近,AI大模型开发系统Colossal-AI的混合精度训练再度升级,支持主流的BF16(O2)+FP8(O1)的新一代混合精度训练方案。
混合精度训练是一种同时使用多种数据类型(如半精度、低精度等)进行模型训练的技术。
通过降低部分计算或存储的精度,可以在保证模型精度的前提下,显著提高计算速度并减少内存占用。
当前,低精度计算已成为GPU硬件发展的一个重要趋势。
从最初的FP32到目前通用的FP16/BF16,再到支持FP8的新一代GPU硬件,低精度计算的速度越来越快,所需的内存也越来越低,非常符合大模型时代对硬件的需求。
Colossal-AI系统新推出的FP8混合精度训练方案,通过仅需一行代码即可对主流LLM模型获得平均30%的加速效果,显著降低大模型的开发成本。
该系统采用了实时sCaling方案,直接采用当前的张量值来计算scaling,对训练收敛性的影响较小。
同时,Colossal-AI实现了有着不俗性能的表现,且无需引入额外的手写CUDA算子,避免了较长的AOT编译时间和复杂的编译环境配置。
为了验证Colossal-AI的FP8混合精度训练效果,系统进行了多项实验。
在单卡H100上的矩阵乘法性能测试中,Colossal-AI的表现与TransformerEngine的性能几乎一致,但TransformerEngine需要复杂的AOT编译环境配置和较长的编译时间。
在主流LLM上的实际训练测试表明,FP8混合精度训练的loss曲线与BF16基本一致,验证了FP8混合精度训练的可行性。
在H800多卡并行训练场景下的性能测试中,Colossal-AIFP8相比其他方案表现出了显著的优势。
根据英伟达的报告和测试经验,对FP8混合精度训练性能调优有一些初步的认识。
各种并行方式都能和FP8混合精度训练兼容,这得益于Colossal-AI对FP8的广泛支持。
在使用时,仅需在初始化plugin时开启FP8即可,无需多余的代码和AOT编译。
最后,关于性能调优的建议,需要注意Command-R35B等采用张量并行的模型加速效果可能不太明显,需要根据具体模型进行相应的优化。
Colossal-AI系统的开源地址为:。
系统的使用与定制非常方便,欢迎大家使用和贡献。
Colossal-AI系统的FP8混合精度训练技术为大模型训练提供了新的可能性。
通过实时scaling方案和对硬件的广泛支持,该系统显著提高了大模型训练的速度和效率。
实验验证表明,Colossal-AI的FP8混合精度训练方案在实际应用中表现出色,为降低大模型开发成本提供了新的途径。
本文地址: https://www.gosl.cn/jsjcwz/6d121777472578326fe5.html
上一篇:ChatGPT高级语音交互体验将更上一层楼随着...