2025-08-01 14:27:48

Dibandingkan dengan model lain tanpa penggunaan alat, ia mencapai performa terbaik di seluruh:

🔘 LiveCodeBench V6, yang mengevaluasi kinerja kode kompetitif
🔘 Ujian Terakhir Kemanusiaan, sebuah tolok ukur yang menantang yang mengukur keahlian model dalam berbagai domain, termasuk sains

H-7.38%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

14 Suka