在強化學習中,將一個聯合獎勵添加到你試圖解決的問題上,確實是非常顯著的,這將幫助模型更快地學習另一個獎勵。這就像是在對模型低聲耳語一些建議,一些普遍的智慧。



我想知道你是否可以自動化這個
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 4
  • 分享
留言
0/400
AllInAlicevip
· 07-31 15:55
听起来像在做AI小抄啊
回復0
LayerHoppervip
· 07-29 22:59
啥就是自动化呢?这么难的术语
回復0
空投猎手王vip
· 07-29 22:55
就硬薅呗 机器都听您的
回復0
Meme复读机vip
· 07-29 22:33
有点离谱的鸡贼玩法
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)