Oneplus的动态

Oneplus 说：

2025-02-05 22:27:02 浙江

关于deepseek r1的5分钟碎片思考。看到一个知乎有小同学用qwen7b+2k数据rl了一个脑筋急转弯的大模型，有几个想法：1/ r1是sft的替代，2/ 成功的关键（可能）是reward model（rm），3/ 未来的世界（可能）是rl的世界，但rl并不重要，rm更重要，4/ rm要刻画（环境，价值），而环境X价值往俗了讲依赖所谓“业务经验”，5/ 但很多业务问题还没有复杂到需要用rm刻画，写好prompt就行，6/有一期楼教主的podcast说小马智行，我理解他们花了很多时间搞自动驾驶里的rm，这个业务问题复杂到值得rm，7/上面的都是错的