Дійсно вражає, що додавання спільної винагороди до проблеми, яку ви намагаєтеся вирішити в RL, допоможе моделі швидше навчитися іншій винагороді. Це як шептати пораду моделі, якусь загальну мудрість.



Цікаво, чи можете ви це автоматизувати
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Поділіться
Прокоментувати
0/400
AllInAlicevip
· 07-31 15:55
Здається, що ви робите шпаргалку з AI.
Переглянути оригіналвідповісти на0
LayerHoppervip
· 07-29 22:59
Що таке автоматизація? Такий складний термін.
Переглянути оригіналвідповісти на0
AirdropHunterKingvip
· 07-29 22:55
Просто тягніть, машина вас слухає.
Переглянути оригіналвідповісти на0
MemeEchoervip
· 07-29 22:33
Трохи безглузда хитра гра
Переглянути оригіналвідповісти на0
  • Закріпити