Era Penalaran Mempercepat Kedatangannya! Nvidia Mendorong LPU - Perusahaan Publik Mana yang Berpotensi Mendapatkan Keuntungan dari Pengiriman Jutaan Unit?

Question

Pada pukul 2:00 dini hari waktu Beijing tanggal 17 Maret, CEO Nvidia Jensen Huang secara resmi meluncurkan chip inferensi Groq 3 LPU (Language Processing Unit, Unit Pemrosesan Bahasa) dalam pidato utama GTC 2026, dan mengintegrasikannya ke dalam platform AI Vera Rubin generasi baru.

Ini adalah kali pertama setelah Nvidia mencapai perjanjian lisensi teknologi dengan Groq di akhir tahun lalu, LPU dipasarkan dalam bentuk produk massal. Jensen Huang menyatakan di acara tersebut bahwa Samsung sedang mempercepat produksi chip ini secara penuh, dan rak LPX berbasis Groq 3 diperkirakan akan hadir pada paruh kedua tahun ini.

Menjelang pembukaan GTC, analis dari Tianfeng International Securities, Guo Mingqi, menulis bahwa setelah investasi Nvidia di Groq, prediksi volume pengiriman LPU telah meningkat secara signifikan. Ia memperkirakan total pengiriman LPU pada tahun 2026 hingga 2027 akan mencapai 4 juta hingga 5 juta unit, dan rak baru berbasis arsitektur ini diperkirakan mulai diproduksi massal pada kuartal keempat tahun ini, dengan pengiriman sekitar 300 hingga 500 unit pada tahun 2026, dan meningkat menjadi 15.000 hingga 20.000 unit pada tahun 2027.

Sementara Nvidia memajukan LPU ke depan, beberapa perusahaan publik domestik di China juga mulai melakukan penataan terkait jalur teknologi ini.

Apa yang dilakukan LPU

Dalam lebih dari dua jam pidato GTC tahun ini, kata “inferensi” (inference) muncul hampir 40 kali.

Seorang pejabat dari Yun Tian Lihui (688343.SH) mengatakan kepada reporter Caixin bahwa “sinyal kuat yang dilepaskan GTC tahun ini adalah bahwa era inferensi sedang semakin cepat datang.”

Ia menganalisis bahwa seiring AI Agentic bergerak dari “berdialog” menjadi “bekerja melakukan tugas,” model besar semakin dalam terintegrasi ke dalam alur kerja, dan AI mulai beralih dari alat dialog menjadi tenaga kerja yang mampu memecah tugas, memanggil alat, dan menjalankan proses. Begitu AI masuk ke tahap produksi, perhatian industri tidak lagi hanya pada kekuatan model, tetapi juga pada apakah daya komputasi mampu mengimbangi kebutuhan.

Salah satu konsep inti yang ditekankan Jensen Huang kali ini adalah “pabrik token”: di bawah batasan daya listrik, ruang, dan biaya yang sudah ditetapkan, membuat pusat data menghasilkan lebih banyak token yang lebih cepat dan bernilai komersial. Ia menyatakan bahwa token adalah mata uang keras di era AI, dan kemampuan komputasi adalah pendapatan perusahaan.

LPU dirancang khusus untuk meningkatkan efisiensi “pabrik” ini.

Pejabat Yun Tian Lihui menjelaskan logika teknisnya: proses inferensi model besar dapat dibagi menjadi dua tahap, yaitu prefill (pengisian awal) dan decode (dekode). Tahap prefill membutuhkan daya paralel tinggi, kapasitas memori besar, dan throughput tinggi. Sedangkan tahap decode membutuhkan latensi rendah, jitter rendah, dan respons cepat. Pada GTC, Nvidia meluncurkan Vera Rubin dan Groq 3 LPU, yang masing-masing ditujukan untuk dua tahap ini.

Ia menambahkan bahwa tidak seluruh tahap decode diserahkan ke LPU, melainkan hanya bagian pembuatan token yang diuntungkan oleh LPU. GPU Rubin tetap menangani perhitungan attention selama prefill dan decode.

Dalam pidatonya, Jensen Huang juga memberikan saran rasio spesifik: sekitar 25% pusat data akan mengadopsi Groq, sementara 75% sisanya akan menggunakan Vera Rubin. Ia menyatakan bahwa jika pekerjaan pengguna terutama melibatkan pembuatan token bernilai tinggi seperti pengkodean, manfaat dari penambahan Groq akan lebih nyata.

Dalam hal performa, perusahaan Zhimei Zhinen (001339.SZ) menyatakan dalam pertemuan investor Maret ini bahwa berdasarkan data pengujian nyata yang diumumkan CEO Groq di ISSCC 2024, kecepatan pembuatan token LPU mencapai 6 kali lipat dari GPU Nvidia H100, biaya per token turun menjadi seperempat dari H100, dan konsumsi energi inferensi turun sepertiga dari H100.

Keunggulan kecepatan LPU berasal dari desain arsitekturnya.

Berbeda dengan arsitektur komputasi paralel umum yang digunakan GPU, LPU menggunakan arsitektur prosesor aliran data deterministik, di mana semua penjadwalan dilakukan oleh compiler selama tahap kompilasi, sehingga tidak memerlukan arbitrasi dinamis saat runtime. Selain itu, LPU dilengkapi dengan SRAM (Static Random Access Memory) on-chip berkapasitas besar, data langsung terintegrasi di dalam chip, sehingga latensi akses jauh lebih rendah dibandingkan dengan GPU yang membaca data dari memori eksternal.

Zhimei Zhinen menjelaskan perbedaan ini secara visual: penjadwalan statis LPU mirip dengan jadwal perjalanan kereta cepat, semua jadwal sudah ditentukan sebelumnya, sangat jarang terjadi kemacetan; sedangkan penjadwalan dinamis GPU seperti berkendara di jalan tol bebas, kerandoman individu secara matematis pasti menyebabkan kemacetan sistemik.

Data yang dirilis Nvidia menunjukkan bahwa setelah Vera Rubin dan Groq 3 LPU dioperasikan bersama, efisiensi pembuatan token per megawatt dapat meningkat 35 kali lipat. Saat ini, Groq 3 LPU diproduksi oleh Samsung, dan chip LP30 sudah diproduksi massal. Rak LPX dapat menampung 256 LPU dalam satu kabinet, dan pengiriman diperkirakan akan dimulai pada kuartal ketiga tahun ini.

Pejabat Yun Tian Lihui berpendapat bahwa GTC 2026 tidak hanya menyampaikan sinyal produk Nvidia, tetapi juga menunjukkan bahwa seluruh industri sedang membangun konsensus: era inferensi tidak lagi hanya bergantung pada parameter puncak, tetapi pada seberapa baik optimisasi dilakukan berdasarkan karakteristik komputasi berbeda untuk setiap tugas, sehingga setiap kekuatan komputasi digunakan di tempat yang tepat.

Siapa yang mengikuti di dalam negeri

Dari konsep menuju produksi massal, perusahaan domestik di China mulai melakukan penataan.

Di bidang desain chip, Zhimei Zhinen baru-baru ini melalui investasi Yaoteng mengakuisisi saham di Hangzhou Yuanchuan Micro Technology Co., Ltd. Yuanchuan Micro adalah perusahaan chip berbasis arsitektur LPU di China, yang mengembangkan arsitektur aliran data keras dan compiler sumber daya lengkap, serta meluncurkan dua seri produk utama, Mountain (kekuatan komputasi) dan River (Agent), yang ditujukan untuk model besar dan aplikasi edge.

Zhimei Zhinen menyatakan dalam pertemuan investor bahwa melalui penguatan hubungan dengan produsen chip hulu, perusahaan bertujuan memperkuat posisi dari tahap pelatihan hingga inferensi, serta meningkatkan kemampuan produk di bidang server AI, kecerdasan embodied, edge, dan perangkat di tepi jaringan. Mereka juga menyebutkan bahwa di masa depan, proporsi kekuatan inferensi akan mencapai 90%, sementara pelatihan hanya 10%, dan LPU diharapkan mendominasi pasar inferensi.

Selain itu, Xingchen Technology (301536.SZ) juga melakukan beberapa putaran investasi tambahan di Yuanchuan Micro.

Yun Tian Lihui dari Yun Tian Lihui juga mengikuti jalur teknologi serupa dari sisi arsitektur chip. Perusahaan telah mengumumkan jalur teknologi GPNPU (General Programmable Neural Network Processor), yang merencanakan chip P dan D untuk skenario inferensi model besar, masing-masing dioptimalkan untuk tahap prefill dan decode, serta menggunakan penyimpanan 3D stacking untuk mengatasi hambatan bandwidth dalam jalur inferensi.

Pejabat Yun Tian Lihui menyatakan bahwa jika Nvidia kali ini menunjukkan “heterogenisasi inferensi” secara global melalui Rubin + LPX, maka produsen domestik terus mendorong inovasi arsitektur inferensi melalui pemisahan PD dan kolaborasi penyimpanan, dan sebenarnya mereka sedang berjalan di jalur industri yang sama.

Wantong Zhikong (300643.SZ) juga melakukan langkah di bidang LPU. Perusahaan ini memiliki saham di Shenming Aosi (memiliki 5.66%), dan mengunci hak produksi dan penjualan eksklusif global untuk kartu LPU mereka di bidang kendali domain kecerdasan embodied. Chip LPU Fellow 1 dari Shenming Aosi telah diproduksi prototipnya pada kuartal pertama tahun ini, dan memasuki tahap pengujian sampel pada kuartal kedua.

Di sisi rantai pasokan hulu, penerapan skala besar LPU juga akan membawa peningkatan bagi industri PCB (Printed Circuit Board).

Dalam laporan riset terbaru, Guotai Securities menyatakan bahwa karena kapasitas SRAM on-chip dari satu LPU terbatas, menjalankan model besar secara skala besar membutuhkan ratusan LPU yang disusun secara seri, sehingga area PCB yang dibutuhkan akan jauh lebih besar dibandingkan solusi GPU murni. Selain itu, LPU memiliki persyaratan bahan PCB yang lebih tinggi, dan diperkirakan akan menggunakan papan tembaga berlapis 52 lapis M9. Perubahan ini akan meningkatkan kebutuhan area PCB dan tingkat kesulitan proses secara bersamaan.

Saat ini, perusahaan seperti Hudian Co., Ltd. (002463.SZ), Shenghong Technology (300476.SZ), dan Shennan Circuit (002916.SZ) sudah memiliki bisnis PCB kelas atas.

Era Penalaran Mempercepat Kedatangannya! Nvidia Mendorong LPU - Perusahaan Publik Mana yang Berpotensi Mendapatkan Keuntungan dari Pengiriman Jutaan Unit?

Topik Trending

GateAIGateClawOfficiallyLaunches

BitcoinBoomsAbove$75K

IsraelStrikesIranBTCPlunges

NvidiaGTC2026ConferenceBegins

IranDeploysMinesInStraitOfHormuz

Hot Gate Fun

AG

AG

什么是爱

什么是爱

SAUDADE

SAUDADE

bur

buratino

h

hool

Sematkan