AI sektöründeki son gelişmeler dördüncü sanayi devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı ve ABD için iş verimliliğini yaklaşık %20 oranında artırdığı tahmin ediliyor. Büyük modellerin sağladığı genelleme yeteneği, daha geniş mod input ve output'unu destekleyebilen yeni bir yazılım tasarım paradigması olarak kabul ediliyor. Derin öğrenme teknolojisi, AI sektörüne dördüncü bir refah dönemini getirdi ve bu dalga kripto para sektörüne de yayıldı.
Bu rapor, AI sektörünün gelişim tarihini, teknoloji sınıflarını ve derin öğrenme teknolojisinin sektöre etkisini inceleyecektir. Derin öğrenmede GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi sanayi zincirinin yukarı ve aşağı akışındaki gelişim durumu ve eğilimlerini derinlemesine analiz edecektir. Kripto para birimi ile AI sektörünün ilişkisini esaslı bir şekilde ele alarak, kripto para birimi ile ilgili AI sanayi zincirinin yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
Yapay zeka endüstrisi 1950'li yıllardan itibaren başlamış, yapay zekanın vizyonunu gerçekleştirmek amacıyla akademik ve endüstri alanında farklı dönemlerde farklı disiplin arka planlarında birçok yapay zeka akımı geliştirilmiştir.
Modern yapay zeka teknolojisi esasen "makine öğrenimi" terimini kullanmaktadır; bu teknoloji anlayışı, makinelerin veriler aracılığıyla görevlerde tekrar tekrar döngü yaparak sistem performansını geliştirmesini sağlamaktır. Ana adımlar, verilerin bir algoritmaya gönderilmesi, bu verilerle bir modelin eğitilmesi, modelin test edilmesi ve dağıtılması, ardından modelin otomatik tahmin görevlerini tamamlamak için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır: bağlanıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insanın sinir sistemi, düşüncesi ve davranışını taklit eder.
Şu anda sinir ağları ile temsil edilen bağlantıcı yaklaşım üstünlük sağlamaktadır (, derin öğrenme olarak da bilinmektedir ). Bunun başlıca nedeni, bu mimarinin bir giriş katmanı, bir çıkış katmanı ve birden fazla gizli katmanı olmasıdır. Katman sayısı ve nöronların ( parametrelerinin ) sayısı yeterince fazla olduğunda, karmaşık genel görevleri uyum sağlamak için yeterli fırsat doğmaktadır. Veri girişi ile nöronların parametreleri sürekli olarak ayarlanabilir; en sonunda birçok veri deneyimledikten sonra, bu nöron en iyi duruma ulaşır ( parametreleri ), bu da "derin" kelimesinin kökenidir - yeterince fazla katman ve nöron.
Örneğin, X=2 olduğunda Y=3; X=3 olduğunda Y=5 olan bir fonksiyon oluşturulduğunu basitçe anlayabiliriz. Bu fonksiyonun tüm X değerlerine yanıt vermesini istiyorsak, bu fonksiyonun derecesini ve parametrelerini sürekli olarak eklememiz gerekir. Örneğin, bu koşulu sağlayan bir fonksiyonu Y = 2X -1 olarak oluşturabiliriz. Ancak X=2, Y=11 olan bir veri varsa, bu üç veri noktasına uygun yeni bir fonksiyon oluşturmak gerekir. GPU kullanarak kaba kuvvet yöntemiyle Y = X2 -3X +5 bulup oldukça uygun olduğunu gördük, ancak verilerle tam olarak örtüşmesi gerekmiyor, sadece dengeyi sağlaması ve kabaca benzer bir çıktı vermesi yeterli. Burada X2, X ve X0 farklı nöronları temsil ederken, 1, -3, 5 ise bunların parametreleridir.
Bu durumda, eğer büyük miktarda veriyi sinir ağına girersek, sinir hücrelerini artırabilir ve yeni verileri uyumlu hale getirmek için parametreleri yineleyebiliriz. Böylece tüm verileri uyumlu hale getirebiliriz.
Sinir ağlarına dayalı derin öğrenme teknolojisi, en erken sinir ağlarından ileri beslemeli sinir ağları, RNN, CNN, GAN'dan modern büyük modeller gibi GPT'nin kullandığı Transformer teknolojisine kadar birçok teknik iterasyon ve evrim geçirmiştir. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve tüm modları (, ses, video, resim gibi ) verileri karşılık gelen sayılara kodlamak için bir dönüştürücü ekler (. Ardından bu veriler sinir ağına verilir, böylece sinir ağı her tür veriyi uyumlu hale getirebilir, yani çok modlu gerçekleştirilebilir.
Yapay zekanın gelişimi üç teknik dalga geçirdi, birinci dalga 1960'lı yıllardaydı, bu, yapay zeka teknolojisinin ortaya çıkışından on yıl sonraydı. Bu dalga, sembolist teknolojinin gelişiminden kaynaklandı ve bu teknoloji genel doğal dil işleme ve insan-makine diyalog sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu; bu, tamamlanmış bir kimya uzman sistemidir. Bu sistem, çok güçlü bir kimya bilgisine sahiptir ve sorular aracılığıyla çıkarım yaparak kimya uzmanıyla aynı cevapları üretebilir. Bu kimya uzman sistemi, kimya bilgi tabanı ve çıkarım sisteminin birleşimi olarak değerlendirilebilir.
Uzman sistemlerden sonra, 1990'larda Judea Pearl ) Judea Pearl ( Bayesian ağlarını önerdi, bu ağlar aynı zamanda inanç ağları olarak da bilinir. Aynı dönemde, Brooks davranışa dayalı robotik önerdi ve davranışçılığın doğuşunu simgeledi.
1997'de, IBM'in derin mavi "Blue" 3.5:2.5 skorla satranç şampiyonu Kasparov'u )Kasparov( yendi, bu zafer yapay zekanın bir dönüm noktası olarak görülüyor, AI teknolojisi ikinci gelişim dalgasını yaşadı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağlarını mimari olarak kullanan ve verileri temsil öğrenimi için kullanan bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları yavaş yavaş evrim geçirdi; RNN, GAN'dan Transformer ve Stabil Difüzyon'a kadar bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu da bağdaştırmacılığın zirve dönemiydi.
Derin öğrenme teknolojisinin keşfi ve evrimiyle birlikte birçok simgesel olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, IBM'in Watson ) Jeopardy ( yarışma programında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN) Üretken Düşman Ağı, Generative Adversarial Network('ı önerdi. İki sinir ağının birbirleriyle rekabet ederek öğrenmesini sağlayarak, gerçek gibi görünen fotoğraflar üretebiliyor. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olarak bilinen "Deep Learning" adlı bir kitap yazdı.
2015 yılında, Hinton ve diğerleri "Nature" dergisinde derin öğrenme algoritmalarını önerdi, bu derin öğrenme yönteminin önerilmesi, akademik çevrelerde ve sanayi dünyasında büyük yankı uyandırdı.
2015 yılında OpenAI kuruldu, birçok tanınmış yatırımcı 10 milyar dolar ortak yatırım yapacağını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayanan AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1'lik bir skorla galip geldi.
2017 yılında, bir robot teknolojisi şirketi tarafından geliştirilen insansı robot Sophia, tarihin ilk birinci sınıf vatandaşlık statüsünü kazanan robotu olarak adlandırılıyor; zengin yüz ifadeleri ve insan dilini anlama yeteneğine sahip.
2017'de, Google "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını tanıttı, büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de OpenAI, Transformer algoritmasına dayanan GPT) Generatif Önceden Eğitilmiş Dönüştürücü('yi tanıttı, bu o dönemdeki en büyük dil modellerinden biriydi.
2018 yılında, Google ekibi DeepMind, derin öğrenmeye dayalı AlphaGo'yu yayınladı ve proteinlerin yapı tahmininde bulunabiliyor, bu da yapay zeka alanındaki büyük bir ilerleme işareti olarak görülüyor.
2019'da OpenAI, 15 milyar parametreye sahip GPT-2'yi yayınladı.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki versiyon GPT-2'den 100 kat daha fazladır. Bu model, 570 GB metin kullanılarak eğitilmiş olup, birden fazla NLP) doğal dil işleme( görevinde) soru yanıtlama, çeviri, makale yazma( konularında en ileri düzeyde performans sergilemektedir.
2021 yılında OpenAI, 1,76 trilyon parametreye sahip olan GPT-4'ü yayınladı; bu, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayanan ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihte bir milyar kullanıcıya ulaşan en hızlı uygulama oldu.
![Yeni Bilgilendirme丨AI x Kripto: Sıfırdan Zirveye])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Derin Öğrenme Sanayi Zinciri
Günümüzde büyük model dilleri, sinir ağına dayalı derin öğrenme yöntemleri kullanmaktadır. GPT öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yaratmış, birçok oyuncu bu alana akın etmiştir. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük ölçüde patlak verdiğini de gözlemliyoruz. Bu raporun bu bölümünde, derin öğrenme algoritmalarının sanayi zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının hâkim olduğu yapay zeka endüstrisinde, tedarik zincirinin nasıl oluştuğunu, yukarı ve aşağı akışın mevcut durumu ile arz-talep ilişkisini ve gelecekteki gelişmeleri inceleyeceğiz.
Öncelikle, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin) büyük modelinin( eğitimi sırasında toplam üç aşama olduğunu netleştirmemiz gerekiyor.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girişini sayılara dönüştürmesi gerekir. Bu sürece "Tokenizasyon" denir, ardından bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak düşünülebilirken, her bir Çince karakter kabaca iki Token olarak değerlendirilebilir. Bu, GPT'nin fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Girdi katmanına yeterince veri çifti sağlamak suretiyle, raporun ilk bölümünde verilen örneklere benzer şekilde )X,Y(, model altındaki her bir nöronun en iyi parametrelerini bulmak için, bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç aynı zamanda en fazla hesaplama gücünü tüketen süreçtir, çünkü nöronları tekrar tekrar farklı parametreleri denemek için yinelemeli olarak çalıştırmak gerekir. Bir veri çifti grubu eğitimi tamamlandıktan sonra, genellikle aynı veri grubunu kullanarak parametreleri yinelemek için ikinci bir eğitim süreci uygulanır.
İkinci adım, ince ayar. İnce ayar, daha az ancak çok yüksek kaliteli bir veri seti ile eğitim vermektir; bu tür bir değişiklik, modelin çıktısının daha yüksek kalitede olmasını sağlayacaktır çünkü ön eğitim büyük miktarda veriye ihtiyaç duyar, ancak birçok veri hata veya düşük kalite içerebilir. İnce ayar adımı, kaliteli veriler aracılığıyla modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" adını veriyoruz. Bu modelin amacı oldukça basit, çıktıları sıralamak. Bu nedenle bu modeli gerçekleştirmek oldukça kolay, çünkü iş senaryosu oldukça dikey. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece bir ödül modeli, büyük modelin parametrelerini otomatik olarak yineleyebilir. ) Ancak bazen modelin çıktısının kalitesini değerlendirmek için insan müdahalesi de gerekebilir. (
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim verinin miktarı için oldukça yüksek taleplerde bulunur ve gereken GPU hesaplama gücü de en fazlasıdır. İnce ayar ise parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar, pekiştirmeli öğrenme ise parametreleri tekrar tekrar yineleyerek daha yüksek kaliteli sonuçlar elde etmek için bir ödül modeli aracılığıyla gerçekleştirilebilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin tavanı da yükselir. Örneğin, bir fonksiyon örneği olarak Y = aX + b alırsak, aslında iki nöron vardır: X ve X0. Bu nedenle, parametrelerin nasıl değiştiği, uyum sağlayabileceği veri miktarını son derece sınırlıdır, çünkü özünde hala bir doğru. Eğer nöron sayısı artarsa, daha fazla parametreyi yineleyebiliriz ve bu da daha fazla veriyi uyumlu hale getirebilir. Bu, büyük modellerin büyük başarılar elde etmesinin nedenidir ve aynı zamanda buna geniş bir şekilde büyük model denmesinin nedenidir. Özünde, büyük miktarda nöron ve parametre, büyük miktarda veri ve aynı zamanda büyük miktarda hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü. Bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini birlikte etkiler. Parametre sayısını p, veri miktarını n) token sayısı ile hesaplayarak alalım(, bu durumda gerekli hesaplama miktarını genel deneyim kurallarına göre hesaplayabiliriz; böylece yaklaşık olarak satın almamız gereken hesaplama gücü durumu ve eğitim süresi hakkında bir tahminde bulunabiliriz.
Hesaplama gücü genellikle Flops ile temel birim olarak ifade edilir, bu da bir floating point işlemi anlamına gelir. Floating point işlemleri, tam sayı olmayan sayıları toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır, örneğin 2.5+3.557, floating point ondalık noktası olan sayıları temsil eder. FP16, ondalık destekleyen hassasiyeti temsil ederken, FP32 daha yaygın bir hassasiyet türüdür. Pratik deneyimlere dayanan bir kural olarak, önceden eğitilmiş )Pre-traning( bir kez ) genellikle büyük modellerin eğitiminde çok sayıda kez çalıştırılır ve yaklaşık 6np Flops gerektirir, 6 sektör sabiti olarak adlandırılır. Çıkarım (Inference, bir veri girdiğimiz ve büyük modelin çıktısını beklediğimiz süreçtir ), iki parçaya ayrılır: n token girişi ve n token çıkışı, bu durumda toplamda yaklaşık 2np Flops gerektirir.
Erken dönemlerde, eğitim için işlemci (CPU) yongaları kullanılarak hesaplama gücü sağlanıyordu, ancak daha sonra giderek yüksek performanslı GPU yongaları gibi GPU'lar ile değiştirilmiştir. Çünkü CPU, genel hesaplama için varken, GPU özel hesaplama olarak kullanılabilir ve enerji verimliliği açısından CPU'yu çok aşar. GPU, ondalık işlemleri esas olarak Tensor Core adlı bir modül aracılığıyla gerçekleştirir. Çünkü
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Yapay Zeka ve Kripto Varlıklar Sektörünün Entegrasyonu: Derinlik Öğreniminden Büyük Modelleri
AI x Crypto:Sıfırdan Zirveye
AI sektöründeki son gelişmeler dördüncü sanayi devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı ve ABD için iş verimliliğini yaklaşık %20 oranında artırdığı tahmin ediliyor. Büyük modellerin sağladığı genelleme yeteneği, daha geniş mod input ve output'unu destekleyebilen yeni bir yazılım tasarım paradigması olarak kabul ediliyor. Derin öğrenme teknolojisi, AI sektörüne dördüncü bir refah dönemini getirdi ve bu dalga kripto para sektörüne de yayıldı.
Bu rapor, AI sektörünün gelişim tarihini, teknoloji sınıflarını ve derin öğrenme teknolojisinin sektöre etkisini inceleyecektir. Derin öğrenmede GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi sanayi zincirinin yukarı ve aşağı akışındaki gelişim durumu ve eğilimlerini derinlemesine analiz edecektir. Kripto para birimi ile AI sektörünün ilişkisini esaslı bir şekilde ele alarak, kripto para birimi ile ilgili AI sanayi zincirinin yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
Yapay zeka endüstrisi 1950'li yıllardan itibaren başlamış, yapay zekanın vizyonunu gerçekleştirmek amacıyla akademik ve endüstri alanında farklı dönemlerde farklı disiplin arka planlarında birçok yapay zeka akımı geliştirilmiştir.
Modern yapay zeka teknolojisi esasen "makine öğrenimi" terimini kullanmaktadır; bu teknoloji anlayışı, makinelerin veriler aracılığıyla görevlerde tekrar tekrar döngü yaparak sistem performansını geliştirmesini sağlamaktır. Ana adımlar, verilerin bir algoritmaya gönderilmesi, bu verilerle bir modelin eğitilmesi, modelin test edilmesi ve dağıtılması, ardından modelin otomatik tahmin görevlerini tamamlamak için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır: bağlanıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insanın sinir sistemi, düşüncesi ve davranışını taklit eder.
Şu anda sinir ağları ile temsil edilen bağlantıcı yaklaşım üstünlük sağlamaktadır (, derin öğrenme olarak da bilinmektedir ). Bunun başlıca nedeni, bu mimarinin bir giriş katmanı, bir çıkış katmanı ve birden fazla gizli katmanı olmasıdır. Katman sayısı ve nöronların ( parametrelerinin ) sayısı yeterince fazla olduğunda, karmaşık genel görevleri uyum sağlamak için yeterli fırsat doğmaktadır. Veri girişi ile nöronların parametreleri sürekli olarak ayarlanabilir; en sonunda birçok veri deneyimledikten sonra, bu nöron en iyi duruma ulaşır ( parametreleri ), bu da "derin" kelimesinin kökenidir - yeterince fazla katman ve nöron.
Örneğin, X=2 olduğunda Y=3; X=3 olduğunda Y=5 olan bir fonksiyon oluşturulduğunu basitçe anlayabiliriz. Bu fonksiyonun tüm X değerlerine yanıt vermesini istiyorsak, bu fonksiyonun derecesini ve parametrelerini sürekli olarak eklememiz gerekir. Örneğin, bu koşulu sağlayan bir fonksiyonu Y = 2X -1 olarak oluşturabiliriz. Ancak X=2, Y=11 olan bir veri varsa, bu üç veri noktasına uygun yeni bir fonksiyon oluşturmak gerekir. GPU kullanarak kaba kuvvet yöntemiyle Y = X2 -3X +5 bulup oldukça uygun olduğunu gördük, ancak verilerle tam olarak örtüşmesi gerekmiyor, sadece dengeyi sağlaması ve kabaca benzer bir çıktı vermesi yeterli. Burada X2, X ve X0 farklı nöronları temsil ederken, 1, -3, 5 ise bunların parametreleridir.
Bu durumda, eğer büyük miktarda veriyi sinir ağına girersek, sinir hücrelerini artırabilir ve yeni verileri uyumlu hale getirmek için parametreleri yineleyebiliriz. Böylece tüm verileri uyumlu hale getirebiliriz.
Sinir ağlarına dayalı derin öğrenme teknolojisi, en erken sinir ağlarından ileri beslemeli sinir ağları, RNN, CNN, GAN'dan modern büyük modeller gibi GPT'nin kullandığı Transformer teknolojisine kadar birçok teknik iterasyon ve evrim geçirmiştir. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve tüm modları (, ses, video, resim gibi ) verileri karşılık gelen sayılara kodlamak için bir dönüştürücü ekler (. Ardından bu veriler sinir ağına verilir, böylece sinir ağı her tür veriyi uyumlu hale getirebilir, yani çok modlu gerçekleştirilebilir.
Yapay zekanın gelişimi üç teknik dalga geçirdi, birinci dalga 1960'lı yıllardaydı, bu, yapay zeka teknolojisinin ortaya çıkışından on yıl sonraydı. Bu dalga, sembolist teknolojinin gelişiminden kaynaklandı ve bu teknoloji genel doğal dil işleme ve insan-makine diyalog sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu; bu, tamamlanmış bir kimya uzman sistemidir. Bu sistem, çok güçlü bir kimya bilgisine sahiptir ve sorular aracılığıyla çıkarım yaparak kimya uzmanıyla aynı cevapları üretebilir. Bu kimya uzman sistemi, kimya bilgi tabanı ve çıkarım sisteminin birleşimi olarak değerlendirilebilir.
Uzman sistemlerden sonra, 1990'larda Judea Pearl ) Judea Pearl ( Bayesian ağlarını önerdi, bu ağlar aynı zamanda inanç ağları olarak da bilinir. Aynı dönemde, Brooks davranışa dayalı robotik önerdi ve davranışçılığın doğuşunu simgeledi.
1997'de, IBM'in derin mavi "Blue" 3.5:2.5 skorla satranç şampiyonu Kasparov'u )Kasparov( yendi, bu zafer yapay zekanın bir dönüm noktası olarak görülüyor, AI teknolojisi ikinci gelişim dalgasını yaşadı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağlarını mimari olarak kullanan ve verileri temsil öğrenimi için kullanan bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları yavaş yavaş evrim geçirdi; RNN, GAN'dan Transformer ve Stabil Difüzyon'a kadar bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu da bağdaştırmacılığın zirve dönemiydi.
Derin öğrenme teknolojisinin keşfi ve evrimiyle birlikte birçok simgesel olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, IBM'in Watson ) Jeopardy ( yarışma programında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN) Üretken Düşman Ağı, Generative Adversarial Network('ı önerdi. İki sinir ağının birbirleriyle rekabet ederek öğrenmesini sağlayarak, gerçek gibi görünen fotoğraflar üretebiliyor. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olarak bilinen "Deep Learning" adlı bir kitap yazdı.
2015 yılında, Hinton ve diğerleri "Nature" dergisinde derin öğrenme algoritmalarını önerdi, bu derin öğrenme yönteminin önerilmesi, akademik çevrelerde ve sanayi dünyasında büyük yankı uyandırdı.
2015 yılında OpenAI kuruldu, birçok tanınmış yatırımcı 10 milyar dolar ortak yatırım yapacağını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayanan AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1'lik bir skorla galip geldi.
2017 yılında, bir robot teknolojisi şirketi tarafından geliştirilen insansı robot Sophia, tarihin ilk birinci sınıf vatandaşlık statüsünü kazanan robotu olarak adlandırılıyor; zengin yüz ifadeleri ve insan dilini anlama yeteneğine sahip.
2017'de, Google "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını tanıttı, büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de OpenAI, Transformer algoritmasına dayanan GPT) Generatif Önceden Eğitilmiş Dönüştürücü('yi tanıttı, bu o dönemdeki en büyük dil modellerinden biriydi.
2018 yılında, Google ekibi DeepMind, derin öğrenmeye dayalı AlphaGo'yu yayınladı ve proteinlerin yapı tahmininde bulunabiliyor, bu da yapay zeka alanındaki büyük bir ilerleme işareti olarak görülüyor.
2019'da OpenAI, 15 milyar parametreye sahip GPT-2'yi yayınladı.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki versiyon GPT-2'den 100 kat daha fazladır. Bu model, 570 GB metin kullanılarak eğitilmiş olup, birden fazla NLP) doğal dil işleme( görevinde) soru yanıtlama, çeviri, makale yazma( konularında en ileri düzeyde performans sergilemektedir.
2021 yılında OpenAI, 1,76 trilyon parametreye sahip olan GPT-4'ü yayınladı; bu, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayanan ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihte bir milyar kullanıcıya ulaşan en hızlı uygulama oldu.
![Yeni Bilgilendirme丨AI x Kripto: Sıfırdan Zirveye])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Derin Öğrenme Sanayi Zinciri
Günümüzde büyük model dilleri, sinir ağına dayalı derin öğrenme yöntemleri kullanmaktadır. GPT öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yaratmış, birçok oyuncu bu alana akın etmiştir. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük ölçüde patlak verdiğini de gözlemliyoruz. Bu raporun bu bölümünde, derin öğrenme algoritmalarının sanayi zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının hâkim olduğu yapay zeka endüstrisinde, tedarik zincirinin nasıl oluştuğunu, yukarı ve aşağı akışın mevcut durumu ile arz-talep ilişkisini ve gelecekteki gelişmeleri inceleyeceğiz.
Öncelikle, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin) büyük modelinin( eğitimi sırasında toplam üç aşama olduğunu netleştirmemiz gerekiyor.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girişini sayılara dönüştürmesi gerekir. Bu sürece "Tokenizasyon" denir, ardından bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak düşünülebilirken, her bir Çince karakter kabaca iki Token olarak değerlendirilebilir. Bu, GPT'nin fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Girdi katmanına yeterince veri çifti sağlamak suretiyle, raporun ilk bölümünde verilen örneklere benzer şekilde )X,Y(, model altındaki her bir nöronun en iyi parametrelerini bulmak için, bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç aynı zamanda en fazla hesaplama gücünü tüketen süreçtir, çünkü nöronları tekrar tekrar farklı parametreleri denemek için yinelemeli olarak çalıştırmak gerekir. Bir veri çifti grubu eğitimi tamamlandıktan sonra, genellikle aynı veri grubunu kullanarak parametreleri yinelemek için ikinci bir eğitim süreci uygulanır.
İkinci adım, ince ayar. İnce ayar, daha az ancak çok yüksek kaliteli bir veri seti ile eğitim vermektir; bu tür bir değişiklik, modelin çıktısının daha yüksek kalitede olmasını sağlayacaktır çünkü ön eğitim büyük miktarda veriye ihtiyaç duyar, ancak birçok veri hata veya düşük kalite içerebilir. İnce ayar adımı, kaliteli veriler aracılığıyla modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" adını veriyoruz. Bu modelin amacı oldukça basit, çıktıları sıralamak. Bu nedenle bu modeli gerçekleştirmek oldukça kolay, çünkü iş senaryosu oldukça dikey. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece bir ödül modeli, büyük modelin parametrelerini otomatik olarak yineleyebilir. ) Ancak bazen modelin çıktısının kalitesini değerlendirmek için insan müdahalesi de gerekebilir. (
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim verinin miktarı için oldukça yüksek taleplerde bulunur ve gereken GPU hesaplama gücü de en fazlasıdır. İnce ayar ise parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar, pekiştirmeli öğrenme ise parametreleri tekrar tekrar yineleyerek daha yüksek kaliteli sonuçlar elde etmek için bir ödül modeli aracılığıyla gerçekleştirilebilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin tavanı da yükselir. Örneğin, bir fonksiyon örneği olarak Y = aX + b alırsak, aslında iki nöron vardır: X ve X0. Bu nedenle, parametrelerin nasıl değiştiği, uyum sağlayabileceği veri miktarını son derece sınırlıdır, çünkü özünde hala bir doğru. Eğer nöron sayısı artarsa, daha fazla parametreyi yineleyebiliriz ve bu da daha fazla veriyi uyumlu hale getirebilir. Bu, büyük modellerin büyük başarılar elde etmesinin nedenidir ve aynı zamanda buna geniş bir şekilde büyük model denmesinin nedenidir. Özünde, büyük miktarda nöron ve parametre, büyük miktarda veri ve aynı zamanda büyük miktarda hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü. Bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini birlikte etkiler. Parametre sayısını p, veri miktarını n) token sayısı ile hesaplayarak alalım(, bu durumda gerekli hesaplama miktarını genel deneyim kurallarına göre hesaplayabiliriz; böylece yaklaşık olarak satın almamız gereken hesaplama gücü durumu ve eğitim süresi hakkında bir tahminde bulunabiliriz.
Hesaplama gücü genellikle Flops ile temel birim olarak ifade edilir, bu da bir floating point işlemi anlamına gelir. Floating point işlemleri, tam sayı olmayan sayıları toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır, örneğin 2.5+3.557, floating point ondalık noktası olan sayıları temsil eder. FP16, ondalık destekleyen hassasiyeti temsil ederken, FP32 daha yaygın bir hassasiyet türüdür. Pratik deneyimlere dayanan bir kural olarak, önceden eğitilmiş )Pre-traning( bir kez ) genellikle büyük modellerin eğitiminde çok sayıda kez çalıştırılır ve yaklaşık 6np Flops gerektirir, 6 sektör sabiti olarak adlandırılır. Çıkarım (Inference, bir veri girdiğimiz ve büyük modelin çıktısını beklediğimiz süreçtir ), iki parçaya ayrılır: n token girişi ve n token çıkışı, bu durumda toplamda yaklaşık 2np Flops gerektirir.
Erken dönemlerde, eğitim için işlemci (CPU) yongaları kullanılarak hesaplama gücü sağlanıyordu, ancak daha sonra giderek yüksek performanslı GPU yongaları gibi GPU'lar ile değiştirilmiştir. Çünkü CPU, genel hesaplama için varken, GPU özel hesaplama olarak kullanılabilir ve enerji verimliliği açısından CPU'yu çok aşar. GPU, ondalık işlemleri esas olarak Tensor Core adlı bir modül aracılığıyla gerçekleştirir. Çünkü