Perkembangan terbaru dalam industri AI dianggap sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, diperkirakan meningkatkan efisiensi kerja di AS sekitar 20%. Kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru, yang dapat mendukung input dan output dengan berbagai mode. Teknologi pembelajaran mendalam membawa kemakmuran keempat bagi industri AI, dan gelombang ini juga menyebar ke industri cryptocurrency.
Laporan ini akan membahas sejarah perkembangan industri AI, klasifikasi teknologi, serta pengaruh teknologi pembelajaran mendalam terhadap industri. Menganalisis secara mendalam status dan tren perkembangan hulu dan hilir rantai industri seperti GPU, komputasi awan, sumber data, dan perangkat tepi dalam pembelajaran mendalam. Secara esensial membahas hubungan antara cryptocurrency dan industri AI, serta menguraikan pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah Perkembangan Industri AI
Industri AI dimulai sejak tahun 1950-an. Untuk mewujudkan visi kecerdasan buatan, kalangan akademis dan industri telah mengembangkan berbagai aliran untuk mewujudkan kecerdasan buatan di berbagai era dan latar belakang disiplin yang berbeda.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", konsep teknologi ini adalah membiarkan mesin bergantung pada data untuk berulang kali mengulang tugas guna meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke dalam algoritma, menggunakan data ini untuk melatih model, menguji model yang diterapkan, dan menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah karena arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( serta parameter ) cukup banyak, akan ada cukup kesempatan untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat disesuaikan terus-menerus, dan setelah melalui banyak data, neuron tersebut akan mencapai kondisi optimal ( parameter ), inilah yang menjadi asal dari kata "dalam"—jumlah lapisan dan neuron yang cukup banyak.
Sebagai contoh, dapat dipahami dengan sederhana bahwa telah dibangun sebuah fungsi, di mana fungsi tersebut menghasilkan Y=3 ketika X=2; Y=5 ketika X=3. Jika ingin fungsi ini berlaku untuk semua X, maka perlu menambahkan terus derajat fungsi dan parameternya. Misalnya, dapat dibangun fungsi yang memenuhi kondisi ini menjadi Y = 2X - 1. Namun, jika ada data di mana X=2, Y=11, maka perlu dibangun ulang fungsi yang sesuai dengan ketiga titik data ini. Menggunakan GPU untuk brute force menemukan Y = X2 - 3X + 5, cukup sesuai, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan, sehingga outputnya kira-kira mirip. Di dalamnya, X2 dan X, X0 masing-masing mewakili neuron yang berbeda, sementara 1, -3, 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambahkan neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknologi, dari jaringan saraf awal, jaringan saraf umpan maju, RNN, CNN, GAN hingga akhirnya berevolusi menjadi model besar modern seperti teknologi Transformer yang digunakan oleh GPT dan lain-lain. Teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter ( Transformer ), yang digunakan untuk mengkodekan semua modal ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk mewakili. Kemudian dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan tipe data apa pun, yaitu mewujudkan multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi, gelombang pertama terjadi pada tahun 1960-an, sepuluh tahun setelah teknologi AI diperkenalkan, gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami yang umum serta dialog manusia-komputer. Pada waktu yang sama, sistem pakar lahir, yang merupakan sistem pakar kimia yang lengkap, sistem ini memiliki pengetahuan kimia yang sangat kuat, melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang sama seperti pakar kimia, sistem pakar kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an Judea Pearl ( mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan kepercayaan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai kelahiran behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengemukakan konsep deep learning, yaitu algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk belajar representasi data. Setelah itu, algoritma deep learning secara bertahap berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson) dari IBM mengalahkan manusia dan meraih juara dalam acara kuis "Jeopardy(".
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Generatif Adversarial, Generative Adversarial Network(, yang dapat menghasilkan foto yang tampak nyata dengan cara membiarkan dua jaringan saraf saling bersaing untuk belajar. Pada saat yang sama, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, dan merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan kawan-kawan mengajukan algoritma pembelajaran mendalam dalam jurnal "Nature", yang segera memicu respons besar di kalangan akademisi dan industri.
Pada tahun 2015, OpenAI didirikan, beberapa investor terkenal mengumumkan untuk bersama-sama menginvestasikan 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis teknologi pembelajaran mendalam bertanding melawan juara dunia Go, pemain profesional 9-dan Lee Sedol, dan menang dengan skor total 4-1.
Pada tahun 2017, sebuah perusahaan teknologi robotika mengembangkan robot humanoid bernama Sophia, yang disebut sebagai robot pertama dalam sejarah yang mendapatkan status sebagai warga negara kelas satu, dengan kemampuan ekspresi wajah yang kaya serta pemahaman bahasa manusia.
Pada tahun 2017, Google menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa skala besar mulai muncul.
Pada tahun 2018, OpenAI meluncurkan GPT) Generative Pre-trained Transformer( yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pembelajaran mendalam, mampu melakukan prediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, GPT-3 yang dikembangkan oleh OpenAI memiliki 175 miliar parameter, 100 kali lebih tinggi dibandingkan versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terdepan dalam berbagai tugas pemrosesan bahasa alami) seperti menjawab pertanyaan, menerjemahkan, dan menulis artikel(.
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Pada bulan Januari 2023, aplikasi ChatGPT yang didasarkan pada model GPT-4 diluncurkan, dan pada bulan Maret, ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat mencapai seratus juta pengguna dalam sejarah.
![Pemula Populer丨AI x Crypto: Dari Nol ke Puncak])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Rantai industri pembelajaran mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Model-model besar yang dipimpin oleh GPT telah menciptakan gelombang baru dalam kecerdasan buatan, banyak pemain memasuki jalur ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi telah meledak. Oleh karena itu, pada bagian laporan ini, kami terutama mengeksplorasi rantai industri dari algoritma pembelajaran mendalam, bagaimana hulu dan hilir dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam ini terbentuk, serta bagaimana kondisi saat ini dan hubungan penawaran dan permintaan, serta perkembangan di masa depan.
Pertama-tama, yang perlu kita perjelas adalah, ketika melakukan pelatihan model besar LLM yang dipimpin oleh GPT berbasis teknologi Transformer, ada tiga langkah yang perlu diikuti.
Sebelum pelatihan, karena berbasis Transformer, konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sementara setiap karakter Han dapat dianggap sebagai dua Token. Ini juga merupakan unit dasar yang digunakan dalam penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input, mirip dengan contoh yang diberikan di bagian pertama laporan yaitu )X,Y(, untuk mencari parameter terbaik masing-masing neuron di bawah model tersebut, pada saat ini diperlukan banyak data, dan proses ini juga merupakan proses yang paling memakan daya komputasi, karena neuron harus berulang kali mengiterasi mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, umumnya akan menggunakan batch data yang sama untuk pelatihan kedua guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sekumpulan data yang lebih sedikit, tetapi berkualitas sangat tinggi, untuk melatih, perubahan seperti ini akan membuat keluaran model memiliki kualitas yang lebih tinggi, karena pra-pelatihan memerlukan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama akan dibangun sebuah model baru, yang kita sebut sebagai "model penghargaan", tujuan model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini akan cukup sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun terkadang juga diperlukan partisipasi manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang dibutuhkan juga yang paling banyak, sementara fine-tuning memerlukan data yang lebih berkualitas tinggi untuk meningkatkan parameter, dan pembelajaran penguatan dapat mengiterasi parameter secara berulang melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter maka batas kemampuan generalisasinya semakin tinggi. Misalnya, dalam contoh fungsi yang kita anggap, Y = aX + b, sebenarnya ada dua neuron, X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya itu tetap merupakan sebuah garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga lebih banyak data dapat diusulkan. Inilah sebabnya mengapa model besar dapat menghasilkan keajaiban, dan ini juga merupakan alasan mengapa istilah model besar digunakan, pada dasarnya terdiri dari neuron dan parameter yang sangat banyak, serta data yang sangat banyak, sementara juga memerlukan kekuatan komputasi yang sangat besar.
Oleh karena itu, kinerja model besar terutama ditentukan oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga faktor ini bersama-sama mempengaruhi kualitas hasil model besar dan kemampuannya untuk menggeneralisasi. Kita anggap jumlah parameter adalah p, jumlah data adalah n) yang dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan menggunakan aturan pengalaman umum, sehingga kita dapat memperkirakan kebutuhan daya komputasi yang perlu dibeli dan waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam Flops, yang mewakili satu operasi floating point. Operasi floating point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian angka non-integer, seperti 2.5 + 3.557. Floating point menunjukkan kemampuan untuk memiliki desimal, sedangkan FP16 mewakili dukungan untuk presisi desimal, dan FP32 adalah presisi yang lebih umum. Berdasarkan aturan praktis, pra-pelatihan )Pre-traning( satu kali ) umumnya akan melatih model besar beberapa kali (, yang kira-kira membutuhkan 6np Flops, di mana 6 dikenal sebagai konstanta industri. Sedangkan inferensi )Inference, adalah proses di mana kita memasukkan data dan menunggu keluaran dari model besar (, dibagi menjadi dua bagian, input n token, output n token, jadi totalnya kira-kira membutuhkan 2np Flops.
Pada awalnya, pelatihan dilakukan menggunakan chip CPU untuk mendukung daya komputasi, tetapi kemudian mulai secara bertahap menggunakan GPU sebagai pengganti, seperti beberapa chip GPU berkinerja tinggi. Karena CPU ada sebagai komputasi umum, tetapi GPU dapat digunakan sebagai komputasi khusus, dalam hal efisiensi konsumsi energi jauh melampaui CPU. GPU menjalankan operasi floating-point terutama melalui modul yang disebut Tensor Core.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI dan industri aset kripto: dari kedalaman pembelajaran hingga model besar
AI x Crypto: dari nol ke puncak
Perkembangan terbaru dalam industri AI dianggap sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, diperkirakan meningkatkan efisiensi kerja di AS sekitar 20%. Kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru, yang dapat mendukung input dan output dengan berbagai mode. Teknologi pembelajaran mendalam membawa kemakmuran keempat bagi industri AI, dan gelombang ini juga menyebar ke industri cryptocurrency.
Laporan ini akan membahas sejarah perkembangan industri AI, klasifikasi teknologi, serta pengaruh teknologi pembelajaran mendalam terhadap industri. Menganalisis secara mendalam status dan tren perkembangan hulu dan hilir rantai industri seperti GPU, komputasi awan, sumber data, dan perangkat tepi dalam pembelajaran mendalam. Secara esensial membahas hubungan antara cryptocurrency dan industri AI, serta menguraikan pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah Perkembangan Industri AI
Industri AI dimulai sejak tahun 1950-an. Untuk mewujudkan visi kecerdasan buatan, kalangan akademis dan industri telah mengembangkan berbagai aliran untuk mewujudkan kecerdasan buatan di berbagai era dan latar belakang disiplin yang berbeda.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", konsep teknologi ini adalah membiarkan mesin bergantung pada data untuk berulang kali mengulang tugas guna meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke dalam algoritma, menggunakan data ini untuk melatih model, menguji model yang diterapkan, dan menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah karena arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( serta parameter ) cukup banyak, akan ada cukup kesempatan untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat disesuaikan terus-menerus, dan setelah melalui banyak data, neuron tersebut akan mencapai kondisi optimal ( parameter ), inilah yang menjadi asal dari kata "dalam"—jumlah lapisan dan neuron yang cukup banyak.
Sebagai contoh, dapat dipahami dengan sederhana bahwa telah dibangun sebuah fungsi, di mana fungsi tersebut menghasilkan Y=3 ketika X=2; Y=5 ketika X=3. Jika ingin fungsi ini berlaku untuk semua X, maka perlu menambahkan terus derajat fungsi dan parameternya. Misalnya, dapat dibangun fungsi yang memenuhi kondisi ini menjadi Y = 2X - 1. Namun, jika ada data di mana X=2, Y=11, maka perlu dibangun ulang fungsi yang sesuai dengan ketiga titik data ini. Menggunakan GPU untuk brute force menemukan Y = X2 - 3X + 5, cukup sesuai, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan, sehingga outputnya kira-kira mirip. Di dalamnya, X2 dan X, X0 masing-masing mewakili neuron yang berbeda, sementara 1, -3, 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambahkan neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknologi, dari jaringan saraf awal, jaringan saraf umpan maju, RNN, CNN, GAN hingga akhirnya berevolusi menjadi model besar modern seperti teknologi Transformer yang digunakan oleh GPT dan lain-lain. Teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter ( Transformer ), yang digunakan untuk mengkodekan semua modal ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk mewakili. Kemudian dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan tipe data apa pun, yaitu mewujudkan multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi, gelombang pertama terjadi pada tahun 1960-an, sepuluh tahun setelah teknologi AI diperkenalkan, gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami yang umum serta dialog manusia-komputer. Pada waktu yang sama, sistem pakar lahir, yang merupakan sistem pakar kimia yang lengkap, sistem ini memiliki pengetahuan kimia yang sangat kuat, melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang sama seperti pakar kimia, sistem pakar kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an Judea Pearl ( mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan kepercayaan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai kelahiran behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengemukakan konsep deep learning, yaitu algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk belajar representasi data. Setelah itu, algoritma deep learning secara bertahap berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson) dari IBM mengalahkan manusia dan meraih juara dalam acara kuis "Jeopardy(".
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Generatif Adversarial, Generative Adversarial Network(, yang dapat menghasilkan foto yang tampak nyata dengan cara membiarkan dua jaringan saraf saling bersaing untuk belajar. Pada saat yang sama, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, dan merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan kawan-kawan mengajukan algoritma pembelajaran mendalam dalam jurnal "Nature", yang segera memicu respons besar di kalangan akademisi dan industri.
Pada tahun 2015, OpenAI didirikan, beberapa investor terkenal mengumumkan untuk bersama-sama menginvestasikan 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis teknologi pembelajaran mendalam bertanding melawan juara dunia Go, pemain profesional 9-dan Lee Sedol, dan menang dengan skor total 4-1.
Pada tahun 2017, sebuah perusahaan teknologi robotika mengembangkan robot humanoid bernama Sophia, yang disebut sebagai robot pertama dalam sejarah yang mendapatkan status sebagai warga negara kelas satu, dengan kemampuan ekspresi wajah yang kaya serta pemahaman bahasa manusia.
Pada tahun 2017, Google menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa skala besar mulai muncul.
Pada tahun 2018, OpenAI meluncurkan GPT) Generative Pre-trained Transformer( yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pembelajaran mendalam, mampu melakukan prediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, GPT-3 yang dikembangkan oleh OpenAI memiliki 175 miliar parameter, 100 kali lebih tinggi dibandingkan versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terdepan dalam berbagai tugas pemrosesan bahasa alami) seperti menjawab pertanyaan, menerjemahkan, dan menulis artikel(.
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Pada bulan Januari 2023, aplikasi ChatGPT yang didasarkan pada model GPT-4 diluncurkan, dan pada bulan Maret, ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat mencapai seratus juta pengguna dalam sejarah.
![Pemula Populer丨AI x Crypto: Dari Nol ke Puncak])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Rantai industri pembelajaran mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Model-model besar yang dipimpin oleh GPT telah menciptakan gelombang baru dalam kecerdasan buatan, banyak pemain memasuki jalur ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi telah meledak. Oleh karena itu, pada bagian laporan ini, kami terutama mengeksplorasi rantai industri dari algoritma pembelajaran mendalam, bagaimana hulu dan hilir dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam ini terbentuk, serta bagaimana kondisi saat ini dan hubungan penawaran dan permintaan, serta perkembangan di masa depan.
Pertama-tama, yang perlu kita perjelas adalah, ketika melakukan pelatihan model besar LLM yang dipimpin oleh GPT berbasis teknologi Transformer, ada tiga langkah yang perlu diikuti.
Sebelum pelatihan, karena berbasis Transformer, konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sementara setiap karakter Han dapat dianggap sebagai dua Token. Ini juga merupakan unit dasar yang digunakan dalam penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input, mirip dengan contoh yang diberikan di bagian pertama laporan yaitu )X,Y(, untuk mencari parameter terbaik masing-masing neuron di bawah model tersebut, pada saat ini diperlukan banyak data, dan proses ini juga merupakan proses yang paling memakan daya komputasi, karena neuron harus berulang kali mengiterasi mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, umumnya akan menggunakan batch data yang sama untuk pelatihan kedua guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sekumpulan data yang lebih sedikit, tetapi berkualitas sangat tinggi, untuk melatih, perubahan seperti ini akan membuat keluaran model memiliki kualitas yang lebih tinggi, karena pra-pelatihan memerlukan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama akan dibangun sebuah model baru, yang kita sebut sebagai "model penghargaan", tujuan model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini akan cukup sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun terkadang juga diperlukan partisipasi manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang dibutuhkan juga yang paling banyak, sementara fine-tuning memerlukan data yang lebih berkualitas tinggi untuk meningkatkan parameter, dan pembelajaran penguatan dapat mengiterasi parameter secara berulang melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter maka batas kemampuan generalisasinya semakin tinggi. Misalnya, dalam contoh fungsi yang kita anggap, Y = aX + b, sebenarnya ada dua neuron, X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya itu tetap merupakan sebuah garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga lebih banyak data dapat diusulkan. Inilah sebabnya mengapa model besar dapat menghasilkan keajaiban, dan ini juga merupakan alasan mengapa istilah model besar digunakan, pada dasarnya terdiri dari neuron dan parameter yang sangat banyak, serta data yang sangat banyak, sementara juga memerlukan kekuatan komputasi yang sangat besar.
Oleh karena itu, kinerja model besar terutama ditentukan oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga faktor ini bersama-sama mempengaruhi kualitas hasil model besar dan kemampuannya untuk menggeneralisasi. Kita anggap jumlah parameter adalah p, jumlah data adalah n) yang dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan menggunakan aturan pengalaman umum, sehingga kita dapat memperkirakan kebutuhan daya komputasi yang perlu dibeli dan waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam Flops, yang mewakili satu operasi floating point. Operasi floating point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian angka non-integer, seperti 2.5 + 3.557. Floating point menunjukkan kemampuan untuk memiliki desimal, sedangkan FP16 mewakili dukungan untuk presisi desimal, dan FP32 adalah presisi yang lebih umum. Berdasarkan aturan praktis, pra-pelatihan )Pre-traning( satu kali ) umumnya akan melatih model besar beberapa kali (, yang kira-kira membutuhkan 6np Flops, di mana 6 dikenal sebagai konstanta industri. Sedangkan inferensi )Inference, adalah proses di mana kita memasukkan data dan menunggu keluaran dari model besar (, dibagi menjadi dua bagian, input n token, output n token, jadi totalnya kira-kira membutuhkan 2np Flops.
Pada awalnya, pelatihan dilakukan menggunakan chip CPU untuk mendukung daya komputasi, tetapi kemudian mulai secara bertahap menggunakan GPU sebagai pengganti, seperti beberapa chip GPU berkinerja tinggi. Karena CPU ada sebagai komputasi umum, tetapi GPU dapat digunakan sebagai komputasi khusus, dalam hal efisiensi konsumsi energi jauh melampaui CPU. GPU menjalankan operasi floating-point terutama melalui modul yang disebut Tensor Core.