Дані Jins 23 лютого повідомили, що недавно працівник OpenAI публічно звинуватив компанію xAI, що належить Ілону Маску, у тому, що недавно випущена оновлена AI-модель Grok3 має вводящі в оману результати тестування Бенчмарк. Натомість співзасновник xAI Ігор Бабущкін наполягає на тому, що компанія не вчинила нічого неправомірного. Графіки xAI показують, що дві версії Grok3 - Grok3 Reasoning Beta та Grok3 mini Reasoning - вище за результатами на AIME 2025 зараз найпотужнішу доступну модель o3-mini-high від OpenAI. Однак працівники OpenAI швидко вказали на платформі X, що графіки xAI не включають результатів o3-mini-high в умовах "cons@64" на AIME 2025. Бабущкін захищався на платформі X, стверджуючи, що раніше OpenAI також публікувала подібні вводящі в оману графіки тестувань Бенчмарк. Хоча ці графіки використовувалися для порівняння результатів їх власних моделей.
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Співробітники OpenAI публічно звинуватили Grok3 у тому, що його тестові результати мають оманливий характер
Дані Jins 23 лютого повідомили, що недавно працівник OpenAI публічно звинуватив компанію xAI, що належить Ілону Маску, у тому, що недавно випущена оновлена AI-модель Grok3 має вводящі в оману результати тестування Бенчмарк. Натомість співзасновник xAI Ігор Бабущкін наполягає на тому, що компанія не вчинила нічого неправомірного. Графіки xAI показують, що дві версії Grok3 - Grok3 Reasoning Beta та Grok3 mini Reasoning - вище за результатами на AIME 2025 зараз найпотужнішу доступну модель o3-mini-high від OpenAI. Однак працівники OpenAI швидко вказали на платформі X, що графіки xAI не включають результатів o3-mini-high в умовах "cons@64" на AIME 2025. Бабущкін захищався на платформі X, стверджуючи, що раніше OpenAI також публікувала подібні вводящі в оману графіки тестувань Бенчмарк. Хоча ці графіки використовувалися для порівняння результатів їх власних моделей.