2025-07-29 22:32:45

Es realmente notable que agregar una recompensa conjunta a la cosa que estás tratando de resolver en RL ayudará al modelo a aprender la otra recompensa más rápido. Es como susurrar consejos al modelo, una sabiduría general.

Me pregunto si puedes automatizar esto

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

22 me gusta