El 23 de febrero, según los datos de Jinshi, recientemente, un empleado de OpenAI acusó públicamente a xAI, una empresa subsidiaria de Elon Musk, de publicar resultados engañosos de las pruebas de referencia del último modelo de IA, Grok3. Igor Babushkin, cofundador de xAI, afirmó firmemente que la empresa no hizo nada indebido. Los gráficos de xAI muestran que las dos versiones de Grok3, Grok3 Reasoning Beta y Grok3 mini Reasoning, superaron el rendimiento del modelo más potente actualmente disponible de OpenAI, o3-mini-high, en AIME 2025. Sin embargo, los empleados de OpenAI señalaron rápidamente en la plataforma X que los gráficos de xAI no incluían la puntuación de AIME 2025 de o3-mini-high bajo la condición de "cons@64". Babushkin argumentó en la plataforma X que OpenAI también había publicado en el pasado gráficos de pruebas de referencia engañosos similares, aunque estos gráficos se usaron para comparar el rendimiento de sus propios modelos.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Los empleados de OpenAI acusan públicamente a Grok3 de tener resultados de prueba engañosos
El 23 de febrero, según los datos de Jinshi, recientemente, un empleado de OpenAI acusó públicamente a xAI, una empresa subsidiaria de Elon Musk, de publicar resultados engañosos de las pruebas de referencia del último modelo de IA, Grok3. Igor Babushkin, cofundador de xAI, afirmó firmemente que la empresa no hizo nada indebido. Los gráficos de xAI muestran que las dos versiones de Grok3, Grok3 Reasoning Beta y Grok3 mini Reasoning, superaron el rendimiento del modelo más potente actualmente disponible de OpenAI, o3-mini-high, en AIME 2025. Sin embargo, los empleados de OpenAI señalaron rápidamente en la plataforma X que los gráficos de xAI no incluían la puntuación de AIME 2025 de o3-mini-high bajo la condición de "cons@64". Babushkin argumentó en la plataforma X que OpenAI también había publicado en el pasado gráficos de pruebas de referencia engañosos similares, aunque estos gráficos se usaron para comparar el rendimiento de sus propios modelos.