v0.6.2
‒ 新增支持通义千问开源全家桶Qwen-7/14/72B的全链路工具链。
‒ 新增支持经典多模态大模型LLava的Megatron版本训练。
‒ 新增对零一万物Yi-6B,deepseek代码大模型的训练加速支持。
‒ 优化多模态训练加速:植入CV-CUDA图像预处理端到端性能提升6.1%。
‒ 优化HF和MG模型对齐ZeroShot评估效果,同时支持算子拆分和流水并行。
‒ 修复已知的Bugs。
‒ 新增支持通义千问开源全家桶Qwen-7/14/72B的全链路工具链。
‒ 新增支持经典多模态大模型LLava的Megatron版本训练。
‒ 新增对零一万物Yi-6B,deepseek代码大模型的训练加速支持。
‒ 优化多模态训练加速:植入CV-CUDA图像预处理端到端性能提升6.1%。
‒ 优化HF和MG模型对齐ZeroShot评估效果,同时支持算子拆分和流水并行。
‒ 修复已知的Bugs。