Bagaimana AI autoresearch mendefinisikan ulang eksperimen pengkodean AI dan memicu perdebatan tentang self-improving s...

2026-03-17 10:21:43

Dalam beberapa minggu terakhir, eksperimen viral dari Andrej Karpathy telah mengubah penelitian otomatis AI dari ide niche menjadi topik utama dalam komunitas riset AI.

Asal-usul konsep penelitian otomatis Karpathy

Awal bulan ini, Andrej Karpathy, seorang peneliti AI terkemuka dan salah satu karyawan pendiri OpenAI, membagikan eksperimen mencolok di X. Ia kemudian memimpin AI di Tesla dan kini bekerja secara independen sambil menjalankan Eureka Labs, sebuah proyek yang membangun jenis sekolah baru untuk era AI.

Karpathy, yang memiliki 1,9 juta pengikut di X, cukup berpengaruh sehingga hampir setiap komentar tentang AI menyebar dengan cepat. Namun, postingan terbaru ini menonjol karena menampilkan sistem praktis yang ia buat untuk penelitian otomatis, yang ia sebut “autoresearch”. Ide ini dengan cepat menarik perhatian praktisi dan teoretikus.

Dalam eksperimen tersebut, Karpathy mengerahkan agen pengkodean AI untuk menjalankan serangkaian tes yang bertujuan meningkatkan pelatihan model bahasa kecil. Selama dua hari berturut-turut, agen tersebut melakukan 700 eksperimen, secara sistematis mengeksplorasi konfigurasi pelatihan untuk menemukan pengaturan yang lebih baik.

Dari eksperimen tersebut, agen menemukan 20 optimisasi yang meningkatkan efisiensi pelatihan. Selain itu, ketika Karpathy menerapkan 20 tweak yang sama ke model bahasa yang lebih besar, meskipun masih relatif kecil, ia mencatat peningkatan kecepatan pelatihan sebesar 11%. Keuntungan konkret ini menegaskan potensi praktis dari pendekatannya.

Dari demo laboratorium ke paradigma riset baru yang potensial

Karpathy menggambarkan kerangka kerja ini sebagai mesin riset umum untuk optimisasi kode dan model. Yang penting, ia menekankan bahwa agen autoresearch tidak melakukan tuning sendiri, melainkan menyesuaikan kode pelatihan dan parameter awal jaringan neural dari model AI yang berbeda dan lebih kecil. Perbedaan ini penting untuk diskusi keamanan, meskipun implikasi terhadap alur kerja riset sangat besar.

Ia berpendapat bahwa alat seperti ini dapat mengubah cara laboratorium terkemuka menjalankan riset AI. “Semua laboratorium frontier LLM akan melakukan ini. Ini adalah pertarungan bos terakhir,” tulis Karpathy di X. Namun, ia mengakui bahwa memperbesar ide dari proyek Python 630 baris ke basis kode model frontier yang jauh lebih besar menimbulkan kompleksitas besar.

Karpathy tetap memandang tantangan ini sebagai masalah rekayasa, bukan hambatan konseptual. Menurutnya, laboratorium akan menjalankan segerombolan agen, membiarkan mereka berkolaborasi untuk menyetel model yang lebih kecil, lalu secara bertahap mempromosikan ide-ide paling menjanjikan ke skala yang lebih besar. Manusia, katanya, akan “secara opsional” berkontribusi di tepi, membimbing dan mengevaluasi daripada menulis kode secara manual untuk setiap modifikasi.

Saat ini, implementasinya berfokus pada satu agen yang secara iteratif memperbaiki basis kode dalam satu jalur. Namun di masa depan, ia mengharapkan banyak agen AI mengeksplorasi hipotesis dan eksperimen berbeda secara paralel. Ia menulis bahwa langkah berikutnya untuk autoresearch adalah menjadi lingkungan kolaboratif secara asinkron dan masif untuk agen, dirancang untuk meniru komunitas riset daripada satu mahasiswa PhD tunggal.

Reaksi industri dan uji Shopify

Eksperimen ini dengan cepat melampaui teori ketika Tobias Lütke, salah satu pendiri dan CEO Shopify, memutuskan mencoba pengaturan ini pada data perusahaan. Lütke melaporkan di X bahwa ia menggunakan sistem ini untuk mengoptimalkan model AI internal, dengan menginstruksikan agen untuk meningkatkan kualitas dan kecepatan. Ini membuat konsep tersebut menjadi nyata untuk aplikasi perusahaan.

Menurut Lütke, setelah membiarkan proses berjalan semalaman, agen melakukan 37 eksperimen dan memberikan peningkatan performa sebesar 19%. Meski ia tidak mempublikasikan detail teknis lengkap, hasilnya cukup mengesankan untuk mendorong antusiasme dan spekulasi lebih lanjut tentang dampak komersial.

Karpathy kemudian menyebutkan bahwa metrik yang cukup efisien untuk dievaluasi dapat ditargetkan oleh segerombolan agen tersebut. Ia juga mencatat bahwa jika metrik memiliki proxy yang lebih murah, seperti melatih jaringan yang lebih kecil daripada yang besar, hal itu tetap dapat diintegrasikan. Ia mendorong para teknolog untuk mempertimbangkan apakah masalah optimisasi mereka termasuk dalam kategori ini.

Tautan ke mimpi dan ketakutan tentang AI yang mampu memperbaiki dirinya sendiri

Yang benar-benar menarik perhatian publik adalah bagaimana ini terlihat sangat dekat dengan gagasan AI yang mampu memperbaiki dirinya sendiri yang telah lama dibahas. Fiksi ilmiah sering menggambarkan sistem yang menulis ulang kode mereka sendiri, sementara beberapa peneliti modern mengidamkan kemampuan tersebut dan yang lain takut akan hal itu. Konsep perbaikan diri secara rekursif memiliki resonansi khusus dalam komunitas keselamatan AI.

Dalam diskusi tersebut, kekhawatiran utama adalah bahwa AI bisa terus-menerus mengoptimalkan arsitektur dan data pelatihannya dalam sebuah loop. Dalam banyak siklus, ini bisa memicu apa yang disebut beberapa peneliti keselamatan sebagai “hard takeoff” atau “ledakan kecerdasan”. Dalam skenario ini, AI bisa dengan cepat melampaui kemampuan kognitif manusia, membuatnya sulit atau bahkan tidak mungkin mempertahankan kendali yang bermakna.

Namun, pengaturan Karpathy tidak memenuhi gambaran ideal atau mengkhawatirkan tersebut. Agen yang ia gunakan tidak memodifikasi pipeline pelatihan sendiri atau mengubah internalnya. Sebaliknya, ia menulis ulang kode pelatihan dan pengaturan jaringan neural dari model yang berbeda dan lebih sederhana. Pemisahan ini menjaga sistem saat ini dalam paradigma optimisasi yang lebih konvensional, meskipun arah perjalanannya jelas.

Namun demikian, banyak pengamat menafsirkan karya ini sebagai pratinjau bagaimana laboratorium mungkin akhirnya mengatur sistem yang lebih otonom. Selain itu, dengan membuat eksperimen yang didorong agen terlihat mudah diakses dan efektif, proyek ini dapat mempercepat adopsi arsitektur serupa, termasuk loop optimisasi sistem agen yang lebih canggih.

Loop Karpathy dan pola agen yang umum

Beberapa analis menyoroti bahwa pola inti di balik proyek ini dapat diabstraksi dan digunakan kembali. Janakiram MSV, analis utama di Janakiram & Associates, menulis di outlet teknologi The New Stack bahwa Karpathy secara efektif mendefinisikan sebuah loop yang dapat digunakan kembali. Ia menyebutnya “Loop Karpathy”, menyarankan sebuah template untuk sistem agen yang lebih luas.

Menurut Janakiram, loop ini memiliki tiga elemen penting. Pertama, agen harus memiliki akses ke satu file yang dapat diubah secara bebas. Kedua, agen membutuhkan satu metrik yang dapat diuji secara objektif untuk dioptimalkan. Ketiga, harus ada batas waktu tetap untuk setiap eksperimen, membatasi berapa lama agen dapat menjalankan percobaan sebelum melaporkan hasil.

Ia juga menekankan bahwa instruksi yang disematkan Karpathy dalam file konfigurasi memberikan model yang kuat tentang bagaimana berkomunikasi dengan agen AI mana pun. File teks biasa tersebut secara hati-hati menentukan apa yang harus dilakukan agen, batasan apa yang berlaku, apa yang tidak boleh disentuh, dan kriteria berhenti. Selain itu, file tersebut mendefinisikan secara tepat berapa lama setiap loop harus berjalan dan kapan agen harus berhenti serta merangkum hasilnya.

Komentator berpendapat bahwa gaya rekayasa prompt yang tepat ini menjadi keterampilan penting. Sementara model dasar semakin kuat, kontrol yang efektif tetap bergantung pada manusia yang menulis arahan yang jelas dan terstruktur yang menyelaraskan otonomi agen dengan tujuan dan batasan konkret.

Autoresearch versus pendekatan AutoML yang ada

Tidak semua orang setuju bahwa karya Karpathy merupakan terobosan. Beberapa kritikus mengatakan bahwa ia secara efektif menemukan kembali komponen AutoML, seperangkat teknik yang telah digunakan Google, Microsoft, dan laboratorium AI lain selama bertahun-tahun. Kerangka AutoML juga menjalankan eksperimen iteratif dalam pencarian data, arsitektur, dan hyperparameter yang lebih baik.

Sistem AutoML klasik sangat bergantung pada loop optimisasi otomatis dan strategi pencarian. Mereka mengeksplorasi arsitektur model, menyetel hyperparameter, dan kadang memilih data pelatihan menggunakan variasi acak atau algoritma evolusi. Namun, mereka umumnya tidak melibatkan agen AI yang dapat membaca makalah riset, merancang hipotesis baru, dan menulis perubahan kode sembarangan sebagai respons.

Karpathy membantah perbandingan yang mereduksi perbedaan tersebut. Ia menunjuk ke metode seperti neural architecture search, yang muncul sebagai cara mengotomatisasi desain model. Menurutnya, bentuk awal teknik ini lemah dibandingkan agen yang dapat bernalar tentang kode, belajar dari percobaan sebelumnya, dan menarik informasi dari internet.

Ia menggambarkan neural architecture search sebagai “versi yang sangat lemah dari ini sehingga masuk dalam kategori sama sekali tidak berguna dibandingkan.” Selain itu, ia menekankan bahwa sistemnya menggunakan model bahasa besar untuk menulis kode sembarangan, menafsirkan hasil dari eksperimen sebelumnya, dan menyesuaikan strategi secara dinamis, menjadikannya jauh lebih fleksibel daripada pipeline neural architecture search tradisional.

Melihat ke depan ke swarm agen dan dampak yang lebih luas

Seiring perhatian meningkat, beberapa peneliti sedang menjajaki bagaimana ide eksperimen autoresearch Karpathy dapat diperbesar menjadi swarm agen penuh. Visinya adalah jaringan agen khusus yang membagi tugas, memeriksa hasil secara silang, dan mengusulkan pendekatan baru, sementara manusia menetapkan tujuan dan batasan tingkat tinggi. Ini bisa mengubah alur kerja AI akademik dan industri.

Namun, memperbesar swarm agen menimbulkan pertanyaan terbuka tentang keamanan, keandalan, dan tata kelola. Pengamat yang khawatir tentang risiko perbaikan diri secara rekursif memperingatkan bahwa saat sistem ini mendapatkan otonomi dan pengaruh yang lebih besar terhadap infrastruktur penting, pengawasan yang ketat akan sangat penting. Penting untuk menjaga metrik evaluasi yang kuat dan tinjauan manusia di setiap langkah promosi.

Untuk saat ini, proyek Karpathy tetap sebagai ilustrasi yang relatif terbatas tentang bagaimana model bahasa dapat melakukan eksperimen autoresearch pada basis kode yang sederhana. Namun, reaksi dari tokoh seperti Lütke dan analis di seluruh industri menunjukkan bahwa pola dasar ini mungkin menyebar dengan cepat, mengaburkan garis antara peneliti manusia dan kolektif agen otonom.

Singkatnya, karya autoresearch Karpathy menunjukkan bahwa satu agen yang dikonfigurasi dengan baik dapat menemukan peningkatan performa yang terukur dalam hitungan hari, bukan bulan. Selain itu, saat laboratorium mendorong teknik ini ke model yang lebih besar dan swarm multi-agen, mereka mungkin membuka kemampuan baru yang kuat sekaligus memperkuat perdebatan lama tentang otonomi, kendali, dan arah masa depan riset AI.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.