关于deepseek r1的5分钟碎片思考。看到一个知乎有小同学用qwen7b+2k数据rl了一个脑筋急转弯的大模型,有几个想法:1/ r1是sft的替代,2/ 成功的关键(可能)是reward model(rm),3/ 未来的世界(可能)是rl的世界,但rl并不重要,rm更重要,4/ rm要刻画(环境,价值),而环境X价值 往俗了讲依赖所谓“业务经验”,5/ 但很多业务问题还没有复杂到需要用rm刻画,写好prompt就行,6/有一期楼教主的podcast说小马智行,我理解他们花了很多时间搞自动驾驶里的rm,这个业务问题复杂到值得rm,7/上面的都是错的