浙江工大与宏杉科技申请基于强化学习的调度策略选择大模型训练方法专利，异构资源状态识别准确率提升40%

您现在的位置：主页 > 热点 >

　　国家知识产权局信息显示，浙江工业大学;杭州宏杉科技股份有限公司申请一项名为“一种基于强化学习的调度策略选择大模型训练方法”的专利，公开号CN120525020A，申请日期为2025年07月。

　　专利摘要显示，本发明属于人工智能领域，公开了一种基于强化学习的调度策略选择大模型训练方法，包括：构建虚拟化集群环境；生成训练数据；进行大模型基座预训练；强化学习环境交互；进行优先级经验回放训练；进行近端策略优化；进行多专家策略蒸馏；进行策略安全验证；进行渐进式在线部署；进行反馈驱动持续优化。

　　源自：

相关文章