近日,中国电信人工智能研究院成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型,正式对外开源其首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型TeleChat2-115B。
这一成果标志着国产大模型训练正式进入全国产自主创新、安全可控的新阶段。
这一里程碑式的重要科研成果是由中国电信集团cto、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领团队完成的。
TeleChat2-115B大模型是基于中国电信自研的天翼云息壤一体化智算服务平台和人工智能公司星海AI平台训练完成的。
在保证训练精度的前提下,利用多种优化手段提升模型训练效率和稳定性,实现了GPU同等算力计算效率的93%以上,同时模型有效训练时长占比达到98%以上。
在今年5月的OpenCampass测试榜单中,TeleChat系列模型的逻辑推理能力名列开源大模型榜单第一。
作为新一代版本,TeleChat2-115B在9月最新公布的C-Eval评测OpenAccess模型综合榜单中,以86.9分的成绩排名第一。
其通用能力较TeleChat系列模型提升近30%,特别是在工具使用、逻辑推理、数学计算、代码生成和长文写作等方面能力均有大幅提升。
针对超大参数模型训练,TeleAI采用了大量小模型进行SCaling,进而验证不同模型结构的有效性。
在数据配比方面,基于小模型实验结果反馈,采用回归预测模型,得到较优数据配比。
这些策略大幅提升了大参数模型最优方案的搜寻效率。
在后训练退火阶段,TeleAI通过大量实验探索到了退火最佳数据量和最佳配比,以及学习率变化方式等,进一步提升了模型训练效果。
在Post-Training(后训练)方面,TeleAI针对数学、代码和逻辑推理等内容合成了大量问答数据,用于SFT(监督式微调)第一阶段模型训练。
通过迭代式更新策略,使用模型对Prompt数据进行指令复杂性提升与多样性扩充。
模型合成和人工标注提升答案质量,并利用拒绝采样获取优质SFT数据及RM(奖励模型)代表性数据,用于SFT训练和DPO(偏好对齐)训练,以及模型效果迭代。
TeleAI连获中国计算语言学大会(CCL2024)挑战赛两项冠军,包括中文空间语义理解评测和古文历史事件类型抽取评测两项第一名。
在NLPCC2024中文议本文挖掘(SharedTask5)挑战赛中,TeleAI语义团队基于上下文学习策略对大模型进行优化,通过利用从粗粒度到细粒度的Prompt设计、多模型的投票机制等手段,进一步提高模型准确率和鲁棒性,以领先第二名将近3分的绝对优势排名第一。
TeleChat2-115B的开源标志着大模型国产化迈进了又一个新征程。
作为最早布局并首先开源大模型的央企机构,TeleAI积极通过开源推动大模型技术的不断进步,并持续推动和引领技术创新向产业落地快速跃迁。
此次开源共享的地址为(待补充)。
中国电信人工智能研究院(TeleAI)在国产大模型训练方面取得了显著成果,并通过开源共享的方式,为行业提供了宝贵的经验和资源。
星辰语义大模型TeleChat2-115B的开源将推动大模型技术的不断进步,引领产业创新快速发展。
本文地址: https://www.gosl.cn/zxzxwz/e95624d4c3ced30eb243.html
上一篇:内外双重安全加持下的高效稳定运行体验...