大模型分布式训练框架Microsoft DeepSpeed,调整ZeRO-3 配置文件,使其支持 T5-3B 甚至 T5-11B 模型训练

内容纲要

任务介绍

调整 ZeRO-3 配置文件,使其支持 T5-3B 甚至 T5-11B 模型训练。

作业提交方式:

提交运行起来后 NVIDIA-smi 和 htop 的输出截图即可,跟视频里给老师大家展示的时候一样。可以把截图上传 GitHub 或者其他地方,提交一个公开的图片链接。

课程相关内容,请参考:

交付

https://github.com/QingYang1807/AI-Large-Model-Fine-Tuning-Camp/blob/main/%E4%BD%9C%E4%B8%9A/%E4%BD%9C%E4%B8%9A8/ds_config_zero3.json

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注

close
arrow_upward