IT之家 3 月 10 日消息,字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该技术叫做 COMET,已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
IT之家注意到,早前豆包团队发布了新一代稀疏架构 UltraMem,将模型推理成本砍掉 83%,此次,又开源了 COMET,向模型训练成本出手。
目前,COMET 核心代码已开源,并计划兼容 Triton 等编译生态。
论文链接:https://arxiv.org/pdf/2502.19811
开源地址:https://github.com/bytedance/flux
本文来自作者[怀莲]投稿,不代表四季号立场,如若转载,请注明出处:https://xn--9wys0p7ub.cn/sjzx/2025sop04-4486.shtml
评论列表(4条)
我是四季号的签约作者“怀莲”!
希望本篇文章《字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%》能对你有所帮助!
本站[四季号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:IT之家 3 月 10 日消息,字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该...