2025-07-29 22:32:45

在強化學習中，將一個聯合獎勵添加到你試圖解決的問題上，確實是非常顯著的，這將幫助模型更快地學習另一個獎勵。這就像是在對模型低聲耳語一些建議，一些普遍的智慧。

我想知道你是否可以自動化這個

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

18人點讚了這條動態

讚賞
18
4
分享

留言

0/400

AllInAlice

· 07-31 15:55

听起来像在做AI小抄啊

回復0

LayerHopper

· 07-29 22:59

啥就是自动化呢？这么难的术语

回復0

空投猎手王

· 07-29 22:55

就硬薅呗机器都听您的

回復0

Meme复读机

· 07-29 22:33

有点离谱的鸡贼玩法

回復0