基于光互连的智能算力集群建议硬件环境清单、智能算力集群加速卡技术规格、模型参数要求、测试报告模板、存档材料列表.docx

资源描述

1、资料性）建议硬件环境清单光直连集群机房硬件配置清单序号设备名称数量参考规格备注1GPU服务器2cpu:IntelXeonCPU*2ram：2TBssd：系统盘480G*2,数据盘3.84TB*4gpu：厂家GPU*8电口：千兆网口*1光口：GPU计算网口200Gb*2,管理网口25Gb*1电源：4个GPU计算区域GPU服务器2RoCE交换机1L3以太网交换机，支持RoCE网络，支持200G光口，配套模块和线缆GPU计算区网络设备3核心交换机1L3以太网交换机，支持25Gb光口，配套模块和线缆可选，非必须4带外管理交换机1L3以太网交换机，支持100OBASE-T电口，配套线缆可选，非必须5防

2、火墙11个配置口（CoN）4个千兆以太电口可选，非必须6光互连模组若干型号：LTPW-CBQDSOP5NCS-XXX必选光互连电交换集群机房硬件配置清单序号设备名称数量参考规格备注1GPU服务器4/8cpu:IntelXeonCPU*2ram：2TBGPU计算区域GPU服务器ssd：系统盘480G*2,数据盘3.84TB*4gpu：厂家GPU*8电口：千兆网口*1光口：GPU计算网口200Gb*2,管理网口25Gb*1电源:4个2RoCE交换机1L3以太网交换机，支持RoCE网络，支持200G光口，配套模块和线缆GPU计算区网络设备3核心交换机1L3以太网交换机，支持25Gb光口，配套模块和线

3、缆可选，非必须4带外管理交换机1L3以太网交换机，支持100oBASE-T电口，配套线缆可选，非必须5防火墙11个配置口（CoN）4个千兆以太电口可选，非必须6光互连模组若干型号：LTPW-CBQDSOP5NCS-XXX必选7电交换机若干PoRT数量：16/32PORT速率：Gen5x8xl6必选光互连光交换集群机房硬件配置清单序号设备名称数量参考规格备注1GPU服务器4/8cpu:IntelXeonCPU*2ram：2TBssd：系统盘480G*2,数据盘3.84TB*4gpu：厂家GPU*8电口：千兆网口*1光口：GPU计算网口200Gb*2,管理网口25Gb*1电源:4个GPU计算区域G

4、PU服务器2RoCE交换机1L3以太网交换机，支持RoCE网络，GPU计算区网络设备支持200G光口，配套模块和线缆3核心交换机1L3以太网交换机，支持25Gb光口，配套模块和线缆可选，非必须4带外管理交换机1L3以太网交换机，支持100OBASE-T电口，配套线缆可选，非必须5防火墙11个配置口（CON）4个千兆以太电口可选，非必须6OCS模组若干型号：TBD必选（资料性）智能算力集群加速卡技术规格参数参数值型号制程工艺晶体管数量核心频率核心数量FP32(vector)FP32(matrix)TF32FP16BF16INT32INT16INT8INT4显存容量显存类型显存位宽显存带宽视频编解

5、码图片编解码显示最大分辨率接口类型显示接口互连带宽最大热设计功耗(TDP)最大整板功耗(TBP)散热设计形态槽位数外形尺寸（资料性）建议模型及模型参数要求建议测试模型建议模型集群规模要求Llama270B至少16卡Llama3.1405B至少128卡GPTMoE567B至少128卡GPTMoE1.8T至少512卡DeepSeekRl671B至少128卡Grok-I至少128卡Stablediffusion至少16卡OpenSora至少16卡私有模型注：Llama3.1405B、GPTMoE567B、GPTMoE1.8T等千亿以上参数模型需要在512卡集群环境进行测试。Llama270B模型测试

6、参数要求序号参数项参数值说明1global_batchsize0.5x卡数强制要求2micro_batchsize厂商自行调整3hidden_size8192强制要求4ffn_hidden_size28672强制要求5num_attention_heads64强制要求6num_layers80强制要求7seq_length4096强制要求9Dataparallelsize厂商自行调整10Tensorparallelsize厂商自行调整11Pipelineparallelsize厂商自行调整12Virtualpipelineparallelsize厂商自行调整13num_gqa_attentio

7、n_group8强制要求14DropoutFALSE强制要求15vocab_size32000强制要求；必须使用11ama70b官方词表GPTMoE567B模型测试参数要求序号参数项参数值说明1global_batchsize64强制要求2micro_batchsize厂商自行调整3hidden_size8192强制要求4ffn_hidden_size32768强制要求5num_attention_heads64强制要求6num_layers64强制要求7seq_length8192强制要求8num_experts16强制要求9moe_router_topk2强制要求10Dataparalle

8、lsize厂商自行调整11Expertparallelsize参考下方说明12Tensorparallelsize参考下方说明13Pipelineparallelsize厂商自行调整14Virtualpipelineparallelsize厂商自行调整15DropoutFALSE强制要求16vocab_size32000强制要求；必须使用Ilama70b官方词表注：TP和EP参数说明TP*EP值为超节点大小（如：超节点大小为16卡时，TP*EP=16；超节点大小为32卡时，TP*EP=32；超节点大小为64卡时，TP*EP=64）GPTMoE1.8T模型测试参数要求序号参数项参数值说明1glo

9、bal_batchsize64强制要求2micro_batchsize厂商自行调整3hidden_size10752强制要求4ffn_hidden_size43008强制要求5num_attention_heads64强制要求6num_layers120强制要求7seq_length8192强制要求8num_experts16强制要求9moe_router_topk2强制要求10Dataparallelsize厂商自行调整11Expertparallelsize参考下方说明12Tensorparallelsize参考下方说明13Pipelineparallelsize厂商自行调整14Virtu

10、alpipelineparallelsize厂商自行调整15DropoutFALSE强制要求16vocab_size32000强制要求；必须使用Ilama70b官方词表注：TP和EP参数说明TP*EP值为超节点大小（如：超节点大小为16卡时，TP*EP=16;超节点大小为32卡时，TP*EP=32；超节点大小为64卡时，TP*EP=64）错误!文档中没有指定样式的文字。Llama3405B模型测试参数要求序号参数项参数值说明1global_batchsize2048强制要求2micro_batchsize厂商自行调整3hidden_size16384强制要求4ffn_hidden_size53

11、284强制要求5num_attention_heads128强制要求6num_layers126强制要求7seq_length8192强制要求9Dataparallelsize厂商自行调整10Tensorparallelsize厂商自行调整11Pipelineparallelsize厂商自行调整12Virtualpipelineparallelsize厂商自行调整13num_gqa_attention_group8强制要求14DropoutFALSE强制要求15vocab_size128256强制要求；必须使用11ama3官方词表注：Globalbatchsize说明Metareport中预训

12、练使用时间最长的配置：16384HlO0；globalbatchsize2048,sequencelength8192DeepSeekR1671B模型测试参数要求序号参数项参数值说明1hidden_size7168强制要求2intermediate_size18432强制要求3num_attentionheads128强制要求4n_group8强制要求5n_routed_experts256强制要求6n_shared_experts1强制要求7Dataparallelsize厂商自行调整8Expertparallelsize参考下方说明9Tensorparallelsize参考下方说明10Pi

13、pelineparallelsize厂商自行调整11Virtualpipelineparallelsize厂商自行调整12num_experts_per_tok8强制要求13num_hidden_layers61强制要求14num_key_value_heads128强制要求15num_nextn_predict_layers1强制要求注：TP和EP参数说明TP*EP值为超节点大小（如：超节点大小为16卡时，TP*EP=16；超节点大小为32卡时，TP*EP=32；超节点大小为64卡时,TP*EP=64）Grok-1模型测试参数要求序号参数项参数值说明1global_batchsize1/8卡

14、数强制要求2micro_batchsize厂商自行调整3hidden_size6144强制要求4ffh_hidden_size32768强制要求5num_attention_heads48强制要求6num_layers64强制要求7seqength8192强制要求8num_experts8强制要求9moe_router_topk2强制要求10Dataparallelsize厂商自行调整11Expertparallelsize参考下方说明12Tensorparallelsize参考下方说明13Pipelineparallelsize厂商自行调整14Virtualpipelineparallels

15、ize厂商自行调整15num_gqa_attention_group6强制要求16DropoutFALSE强制要求17vocab_size32000强制要求；必须使用IIama70b官方词表注：TP和EP参数说明TP*EP值为超节点大小（如：超节点大小为16卡时，TP*EP=16；超节点大小为32卡时，TP*EP=32；超节点大小为64卡时，TP*EP=64）Stablediffusion模型测试参数要求序号参数项参数值说明1global_batchsize4卡数强制要求2microbatchsize产商自行调整3num_timesteps_cond1强制要求4img_size64强制要求5c

16、hannels4强制要求6validation_config.samplerddim强制要求7validation_config.steps50强制要求9validation_config.ddim-eta0强制要求10validation_config.scale8.0强制要求11UNetModel.use_fp16True强制要求12UNetModel.img_size32强制要求13UNetModel.in_channels4强制要求14UNetModel.out_channels4强制要求15UNetModeLmodeLchannels320强制要求16UNetModel.attent

17、ion_resolutions4,2,1强制要求17UNetModel.num_res_blocks2强制要求18UNetModeLchanneLmult1,2,4,4强制要求19UNetModel.num_head_channels64强制要求20UNetModel.use_spatial_transformerTrue强制要求21UNetModel.useinear_inJTanSfOrmerTrue强制要求22UNetModel.transformer_depth1强制要求23UNetModeLcontexCdim1024强制要求24first_stage_config.Autoenco

18、derKL.embed_dim4强制要求25first_stage_config.AutoencoderKL.ddconfig.double_ztrue强制要求26first_stage_config.AutoencoderKL.ddconfig.z_channels4强制要求27first_stage_config.AutoencoderKL.ddconfig.resolution256强制要求28first_stage_config.AutoencoderKL.ddconfig.in_channels3强制要求29first_stage_config.AutoencoderKL.ddcon

19、fig.out_ch3强制要求30first_stage_config.AutoencoderKL.ddconfig.ch128强制要求31first_stage_config.AutoencoderKL.ddconfig.ch_mult1,2,4,4强制要求32first_stage_config.AutoencoderKL.ddconfig.num_res_blocks2强制要求33cond_stage_config.FrozenOpenCLIPEmbedder.archViT-H-1411强制要求34cond_stage_config.FrozenOpenCLIPEmbedder.ver

20、sionIaio112b.s32b.b79kn强制要求35cond_stage_config.FrozenOpenCLIPEmbedder.version.freezetrue强制要求36cond_stage_config.FrozenOpenCLIPEmbedder.layer11penultimateff强制要求注：base实现代码可以参考：training/stable_diffusionatmastermlcommonstrainingGitHub效果评价指标采用fid和clip；数据和模型请参考:OpenSora模型测试参数要求序号参数项参数值说明1globalbatchsize4卡

21、数强制要求2训练精度FP16BF16强制要求3flux.inchannels64强制要求4flux.vec_in_dim768强制要求5flux.context_in_dim4096强制要求6flux.hidden_size3072强制要求7flux.mlp_ratio4强制要求9flux.num_heads24强制要求10flux,depth19强制要求11flux.depth_single_blocks38强制要求12flux.axes_dim16,56,56强制要求13flux.qkv_biasTrue强制要求14ae.modelhunyuan_vae强制要求15ae.model.in_

22、channels3强制要求16ae.model.out_channels3强制要求17ae.model.layers_per_block2强制要求18ae.model.latent_channels16强制要求19ae.model.use_spatial_tilingTrue强制要求20ae.model.use_temporal_ti1ingFalse强制要求21text_embedder.modelzzgooglet5-vl-l-xz强制要求22text_embedder.model.max_length512强制要求23clip,modelzzopenai/clip-vit-large-P

23、atChI4强制要求24clip,model.max_length77强制要求注：开源代码及说明可以参考：Open-Sora/docs/train,mdatmainhpcaitechOpe11-SoraGitHub（规范性）测试报告模板厂商名+XX卡+光直连集群+测试报告（报告编号：厂商首字母缩写+XXGPU+ODC+yymmdd）厂商名+XX卡+光互连电交换集群+测试报告（报告编号：厂商首字母缩写+XXGPU+OIES+yymmdd）厂商名+XX卡+光互连光交换集群+测试报告（报告编号：厂商首字母缩写+XXGPU+OIOS+yymmdd）测试单位测试人员测试地点测试开始时间测试结束时间1 .

24、测试环境配置1.1 测试环境描述1.2 硬件配置测试中使用的关键硬件配置清单记录如下:确认步骤记录：1.3 软件配置测试中使用的关键软件配置清单记录如下:确认步骤记录：2 .测试过程记录2.1 操作截屏2.2 运行脚本2.3 运行日志3 .测试结果记录3.1 基础性能测试3.1.1 测试方法3.1.2 测试结果3.2 通信算法适配测试3.2.1 测试方法3.2.2 测试结果3.3 模型测试3.3.1 测试方法3.3.2 测试结果（参考性资料）存档材料列表序号材料名称说明1xx_report测试报告存放文件夹2xx_logs模型训练IOg3xx_env模型训练环境，包含复现本次测试模型训练结果的所需依赖4xx_code模型训练代码5xx_scipts模型训练启动脚本6xx_drawing画IOSS图工具和训练的IoSS图7xx_ckpt模型训练的checkpoint注：存档时可将上述文字中XX替换成智能算力集群加速库名称的首字母缩写

展开阅读全文