GRPO 大模型算法:强化学习 微调与对齐 SFT RLHF DeepSeek蒸馏 CoT 详解强化学习 DPO 效果优化及其实践
GRPO 大模型算法:强化学习 微调与对齐 SFT RLHF DeepSeek蒸馏 CoT 详解强化学习 DPO 效果优化及其实践
所 在 地:天津 累计销量:100+
店铺掌柜:  臣马图书音像专营店 
69.6 69.6
相关推荐