IT之家报道,9月28日消息,中国电信人工智能研究院(简称TeleAI)今天宣布了一项重大的科研成果:成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型,并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型TeleChat2-115B。
这标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。
星辰语义大模型TeleChat2-115B是中国电信在人工智能领域的一项重要突破。
该模型基于中国电信自研的天翼云息壤一体化智算服务平台和人工智能公司星海AI平台训练完成。
在保证训练精度的前提下,该模型利用多种优化手段提升了模型训练效率和稳定性,实现了GPU同等算力计算效率超93%,模型有效训练时长占比超98%。
这一成果对于推动国产人工智能技术的发展具有重大意义。
针对超大参数模型训练,TeleAI采用了大量小模型进行Scaling,进而验证不同模型结构的有效性。
这种方式不仅可以提高训练效率,而且可以通过验证不同模型结构的有效性来优化大模型的性能。
同时,在数据配比方面,基于小模型的实验结果反馈,采用回归预测模型,得到较优数据配比。
这为大规模参数模型的训练提供了有力的数据支持。
在模型的训练过程中,TeleAI采取了多种策略来提高模型的性能。
在Post-Training(后训练)方面,首先针对数学、代码和逻辑推理等内容合成了大量问答数据,用于SFT(监督式微调)第一阶段的模型训练。
采用迭代式更新策略,使用模型对提示词数据进行指令复杂性提升与多样性扩充。
同时,通过模型合成和人工标注提升答案质量,并利用拒绝采样获取优质SFT数据及RM(奖励模型)代表性数据,用于SFT训练和DPO(偏好对齐)训练,以及模型效果迭代。
TeleAI此次将星辰语义大模型TeleChat2-115B进行开源,体现了其在人工智能领域的开放与合作态度。
开源地址已附在IT之家的报道中,这将为国内外的研究者提供一个重要的研究和开发平台。
开源模型的共享将促进人工智能领域的技术进步和创新,推动国产人工智能技术的进一步发展。
星辰语义大模型TeleChat2-115B的成功训练和开源,也意味着中国在人工智能领域的研究和发展已经步入一个新的阶段,即全国产自主创新、安全可控的新阶段。
这将有助于提高国内人工智能技术的竞争力,促进相关产业的发展,为中国的科技进步做出重要贡献。
中国电信人工智能研究院成功完成的国内首个基于全国产化万卡集群训练的万亿参数大模型,是人工智能领域的一项重要突破。
其成功的开源,将为国内外研究者提供一个重要的研究和开发平台,推动人工智能领域的进步和发展。
我们期待在未来,更多的科研机构和企业在人工智能领域取得更多的突破和成果。
本文地址: https://www.gosl.cn/jsjcwz/0f80ba1482d5515d097d.html
上一篇:迎接未来共同推动交易所系统稳定与繁荣发展...