手机就能运行,1 万亿训练数据!StableLM-3B-4E1T 来啦
AGI创新实验室
2023-10-04 17:45
订阅此专栏
收藏此文章

专注 AIGC 领域的专业社区,关注 OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注 LLM 的基准评测和市场研究,欢迎关注!

美东时间 10 月 2 日,著名开源平台 Stability.ai 在官网宣布,推出开源大语言模型 StableLM-3B-4E1T。(开源地址:https://huggingface.co/stabilityai/stablelm-3b-4e1t

据悉,Stable LM 3B 是一款主要面向手机、笔记本等移动设备的基础大语言模型,在保证性能的前提下,极大降低了算力资源的要求。

StableLM 3B 支持生成文本 / 代码、总结摘要、数据微调、常识推理、解答数学题等功能,全局上下文长度为 4096。(简称“Stable LM 3B”)

随着 ChatGPT 的火爆出圈,全球掀起了轰轰烈烈的“大模型开发热潮”。但多数模型皆需要耗费大量算力资源才能预训练、微调,同时对开发的生成式 AI 应用的运行环境也有很高的要求。高通更是发布了专门针对移动端的生成式 AI 芯片,以解决算力问题。

Stability.ai 希望通过开源 Stable LM 3B,帮助那些没有庞大算力资源的开发者,也能打造小巧精悍的生成式 AI 产品,可以安全、稳定地在移动端运行。

StableLM 3B 训练数据集

虽然该模型只有 30 亿参数,却使用了一个包含文本、代码、维基百科、ArXiv、图书、C4 等多种数据的 1 万亿 tokens 庞大的训练数据集。

该数据集由多个开源的大规模数据集经过筛选混合而成,包括 Falcon RefinedWeb、RedPajama-Data、The Pile 以及 StarCoder 等。

这使得 Stable LM 3B 以更少的资源,性能却超越同等规模模型,甚至比一些 70 亿、100 亿参数的大模型更强。

StableLM 3B 训练流程

StableLM 3B 以 bfloat16 精度训练 972k 起步,全局上下文长度为 4096,而不是像 StableLM-Alpha v2 那样从 2048 到 4096 进行多阶段提升。

Stability.ai 使用了 AdamW 进行性能优化,并在前 4800 步使用线性预热,然后采用余弦衰减计划将学习率降至峰值的 4%。

早期的不稳定性归因于在高学习率区域的长期停留。由于模型相对较小,没有采用 dropout。

在训练过程中,Stability.ai 评估自然语言基准,并在学习率衰减计划的尾声阶段,观察到训练带来的稳步提升。基于这个原因,开发人员决定将学习率线性降低至 0,类似于 Zhai 等人的做法,以期获得更好的性能。

此外,在预训练的初始阶段依赖于 flash-attention API 及其开箱即用的三角因果屏蔽支持。这迫使模型以类似的方式处理打包序列中的不同文档。

在冷却阶段,Stability.ai 在并发实验中凭经验观察到样本质量提高(即:减少重复)后,为所有打包序列重置 EOD 标记处的位置 ID 和注意掩码。

硬件方面,StableLM-3B 是在 Stability AI 的算力集群上训练的。该集群包含 256 个 NVIDIA A100 40GB 显卡。训练开始于 2023 年 8 月 23 日,大约消耗了 30 天完成。

性能测试方面,StableLM-3B 在零样本的 lm-evaluation-harness 评估框架中,进行了性能测试。结果显示,性能完全不输 70 亿参数的模型,甚至比一些 100 亿参数的更强。

本文素材来源Stability.ai 官网,如有侵权请联系删除

END


【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

AGI创新实验室
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开