Sejak o1 diluncurkan hingga sekarang, keluhan terbesar adalah "terlalu banyak bicara".



Saya hanya ingin memperbaiki bug sederhana, tapi dia malah memberikan tiga latar belakang, dua set solusi ditambah penanganan error, dan masih menyuruh saya beruntung di akhir.

Awalnya hanya ingin menemukan typo di baris 12, hasilnya malah dipaksa mengulang standar penamaan Python sekali lagi.

Kesalahan ini harus disalahkan pada RLHF. Para pengguna label cenderung memberi skor tinggi untuk respons panjang, merasa banyak kata terlihat profesional.

Jadi model terus-terusan menumpuk "sampah yang terlihat berguna", padahal informasi inti malah jadi encer.

Lihat tetangga sebelah, Claude jauh lebih penurut dalam hal ini, tahu masalah apa cocok panjang berapa.

Yang paling menyakitkan adalah dompet: harga output o1 adalah $60/1M token, padahal hal yang bisa dijelaskan 100 token, dia paksakan sampai 500, biaya naik lima kali lipat.

Sekarang bertanya harus tambah kalimat "cuma kode", bahkan itu tidak pasti berhasil.

Status model sekarang adalah: IQ sangat tinggi, tapi EQ offline, sama sekali tidak tahu kapan harus diam.
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan