2025-07-29 22:32:45

Дійсно вражає, що додавання спільної винагороди до проблеми, яку ви намагаєтеся вирішити в RL, допоможе моделі швидше навчитися іншій винагороді. Це як шептати пораду моделі, якусь загальну мудрість.

Цікаво, чи можете ви це автоматизувати

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

22 лайків