Sự phát triển gần đây của ngành AI được coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất của các ngành, ước tính đã tăng khoảng 20% hiệu suất công việc ở Mỹ. Khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, có thể hỗ trợ nhiều loại đầu vào và đầu ra khác nhau. Công nghệ học sâu đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng đã lan rộng đến ngành tiền điện tử.
Báo cáo này sẽ khám phá lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như ảnh hưởng của công nghệ học sâu đối với ngành. Phân tích sâu về tình trạng và xu hướng phát triển của chuỗi công nghiệp liên quan đến GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên trong học sâu. Thảo luận về mối quan hệ giữa tiền điện tử và ngành AI, đồng thời hệ thống hóa cấu trúc chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau để thực hiện trí tuệ nhân tạo trong bối cảnh các thời đại và các lĩnh vực khác nhau.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", khái niệm công nghệ này là để cho máy móc dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để huấn luyện mô hình, kiểm tra và triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, học máy có ba trường phái chính, lần lượt là chủ nghĩa kết nối, chủ nghĩa biểu tượng và chủ nghĩa hành vi, lần lượt bắt chước hệ thần kinh, tư duy và hành vi của con người.
Hiện nay, chủ nghĩa kết nối, đại diện bởi mạng nơ-ron, đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là cấu trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn. Một khi số lượng lớp và số lượng nơ-ron ( tham số ) trở nên đủ lớn, sẽ có đủ cơ hội để khớp với các nhiệm vụ tổng quát phức tạp. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số của nơ-ron, cuối cùng trải qua nhiều dữ liệu, nơ-ron đó sẽ đạt được trạng thái tối ưu ( tham số ), đây cũng là nguồn gốc của từ "sâu" - số lượng lớp và nơ-ron đủ lớn.
Ví dụ, có thể hiểu đơn giản là đã xây dựng một hàm, hàm này cho đầu vào X=2 thì Y=3; X=3 thì Y=5, nếu muốn hàm này phản ứng với tất cả các X, thì cần phải liên tục thêm bậc của hàm này và các tham số của nó, chẳng hạn có thể xây dựng một hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2, Y=11, thì cần phải xây dựng lại một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để bẻ khóa một cách mạnh mẽ phát hiện Y = X2 -3X +5, khá phù hợp, nhưng không cần hoàn toàn trùng khớp với dữ liệu, chỉ cần tuân thủ sự cân bằng, đầu ra tương tự là đủ. Ở đây X2 và X, X0 đều đại diện cho các nơ-ron khác nhau, còn 1, -3, 5 là các tham số của nó.
Nếu chúng ta nhập một lượng lớn dữ liệu vào mạng nơ-ron, chúng ta có thể tăng số lượng tế bào thần kinh và lặp lại các tham số để phù hợp với dữ liệu mới. Bằng cách này, chúng ta có thể phù hợp với tất cả dữ liệu.
Công nghệ học sâu dựa trên mạng nơ-ron cũng đã trải qua nhiều lần cải tiến và phát triển, từ mạng nơ-ron ban đầu, mạng nơ-ron hồi tiếp (RNN), mạng nơ-ron tích chập (CNN), mạng đối kháng sinh (GAN) cuối cùng phát triển thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng phát triển của mạng nơ-ron, thêm vào một bộ chuyển đổi (Transformer), dùng để mã hóa dữ liệu của tất cả các chế độ ( như âm thanh, video, hình ảnh, v.v. thành các giá trị tương ứng để biểu thị. Sau đó, chúng được đưa vào mạng nơ-ron, nhờ đó mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là đạt được tính đa mô thức.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên là vào những năm 60 của thế kỷ 20, sau một thập kỷ khi công nghệ AI được đưa ra. Làn sóng này được gây ra bởi sự phát triển của công nghệ biểu tượng, công nghệ này đã giải quyết vấn đề xử lý ngôn ngữ tự nhiên và đối thoại giữa người và máy. Cùng thời gian đó, hệ thống chuyên gia ra đời, đây là một hệ thống chuyên gia hóa học hoàn chỉnh, hệ thống này có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy luận nhằm tạo ra câu trả lời giống như một chuyên gia hóa học. Hệ thống chuyên gia hóa học này có thể được xem như sự kết hợp giữa kho kiến thức hóa học và hệ thống suy luận.
Sau hệ thống chuyên gia, vào những năm 90, Judea Pearl ) đã đề xuất mạng Bayes, còn được gọi là mạng niềm tin. Cùng thời gian đó, Brooks đã đề xuất robot học dựa trên hành vi, đánh dấu sự ra đời của chủ nghĩa hành vi.
Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Garry Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển thứ hai.
Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba ông lớn trong lĩnh vực học sâu là Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng hình thành nên làn sóng công nghệ thứ ba, và đây cũng là thời kỳ hoàng kim của chủ nghĩa liên kết.
Nhiều sự kiện mang tính biểu tượng cũng đã xuất hiện dần dần cùng với sự khám phá và tiến hóa của công nghệ học sâu, bao gồm:
Năm 2011, Watson ( của IBM đã đánh bại con người và giành chiến thắng trong chương trình quiz "Jeopardy" ).
Năm 2014, Goodfellow đã đề xuất GAN( Mạng đối kháng sinh, Generative Adversarial Network), thông qua việc cho hai mạng nơ-ron cạnh tranh lẫn nhau để học, có thể tạo ra những bức ảnh giống thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách mang tên "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách nhập môn quan trọng trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này ngay lập tức gây ra tiếng vang lớn trong giới học thuật cũng như trong ngành công nghiệp.
Năm 2015, OpenAI được thành lập, nhiều nhà đầu tư nổi tiếng công bố cùng nhau đầu tư 1 tỷ đô la.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã chiến đấu với nhà vô địch cờ vây thế giới, kỳ thủ chuyên nghiệp 9 dan Lee Sedol và giành chiến thắng với tỷ số 4-1.
Năm 2017, một công ty công nghệ robot đã phát triển robot hình người Sophia, được coi là robot đầu tiên trong lịch sử có được quyền công dân hạng nhất, với khả năng biểu cảm khuôn mặt phong phú và khả năng hiểu ngôn ngữ của con người.
Năm 2017, Google đã phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, các mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI đã phát hành GPT( Generative Pre-trained Transformer) được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu hiệu tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, GPT-3 do OpenAI phát triển, có 175 tỷ tham số, cao hơn 100 lần so với phiên bản trước là GPT-2, mô hình này sử dụng 570GB văn bản để đào tạo, có thể đạt hiệu suất tiên tiến nhất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, dịch thuật, viết bài.
Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1,76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, đến tháng 3 ChatGPT đã đạt một trăm triệu người dùng, trở thành ứng dụng nhanh nhất trong lịch sử đạt một trăm triệu người dùng.
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều sử dụng các phương pháp học sâu dựa trên mạng nơ-ron. Mô hình GPT đã tạo ra một làn sóng nhiệt huyết trong lĩnh vực trí tuệ nhân tạo, với một lượng lớn người chơi đổ vào lĩnh vực này. Chúng tôi cũng nhận thấy rằng nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường đã bùng nổ mạnh mẽ, do đó trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi công nghiệp của các thuật toán học sâu, trong ngành AI do các thuật toán học sâu dẫn dắt, các bên trên và dưới của chuỗi công nghiệp được cấu thành như thế nào, và tình trạng hiện tại cũng như mối quan hệ cung cầu, phát triển trong tương lai sẽ ra sao.
Trước tiên, chúng ta cần làm rõ rằng, trong quá trình đào tạo các mô hình lớn LLMs dựa trên công nghệ Transformer với GPT là chính(, tổng cộng có ba bước.
Trước khi đào tạo, vì nó dựa trên Transformer, nên bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành số, quá trình này được gọi là "Tokenization", sau đó những số này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được xem một cách đại khái là một Token, trong khi mỗi chữ Hán có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng trong định giá GPT.
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp cho lớp đầu vào đủ cặp dữ liệu, giống như ví dụ được nêu trong phần đầu báo cáo )X,Y(, để tìm các tham số tốt nhất của từng nơ-ron trong mô hình, thời điểm này cần rất nhiều dữ liệu, và quá trình này cũng là quá trình tốn kém sức mạnh tính toán nhất, vì phải lặp đi lặp lại để các nơ-ron thử nghiệm các tham số khác nhau. Sau khi một lô cặp dữ liệu được huấn luyện xong, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lại nhằm lặp lại các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, sự thay đổi này sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc tiền huấn luyện cần rất nhiều dữ liệu, nhưng nhiều dữ liệu có thể có lỗi hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng.
Bước ba, học tăng cường. Đầu tiên sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi nó là "mô hình thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ khá đơn giản, vì bối cảnh kinh doanh khá cụ thể. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy có thể sử dụng một mô hình thưởng để tự động lặp lại các tham số của mô hình lớn. ) nhưng đôi khi cũng cần có sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình (
Nói một cách ngắn gọn, trong quá trình huấn luyện mô hình lớn, việc tiền huấn luyện yêu cầu một lượng dữ liệu rất cao, và sức mạnh GPU cần thiết cũng là lớn nhất, trong khi việc tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình thưởng để tạo ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì trần khả năng tổng quát càng cao, chẳng hạn như trong ví dụ về hàm Y = aX + b, thực ra có hai nơ-ron X và X0, vì vậy cách mà các tham số thay đổi, dữ liệu mà nó có thể khớp rất hạn chế, vì bản chất của nó vẫn là một đường thẳng. Nếu số lượng nơ-ron nhiều hơn, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp nhiều dữ liệu hơn, đó là lý do tại sao mô hình lớn có thể tạo ra những điều kỳ diệu, và cũng là lý do tại sao gọi một cách thông thường là mô hình lớn, bản chất chính là lượng lớn nơ-ron và tham số, lượng lớn dữ liệu, đồng thời cần một lượng lớn sức mạnh tính toán.
Vì vậy, hiệu suất của mô hình lớn chủ yếu được xác định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, và sức mạnh tính toán. Ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Giả sử số lượng tham số là p, khối lượng dữ liệu là n) được tính bằng số lượng Token(, thì chúng ta có thể tính toán lượng tính toán cần thiết bằng các quy tắc kinh nghiệm thông thường, từ đó ước tính tình hình sức mạnh tính toán mà chúng ta cần mua và thời gian huấn luyện.
Công suất tính toán thường được đo bằng Flops, đại diện cho một phép toán số thực, phép toán số thực là thuật ngữ chỉ sự cộng, trừ, nhân, chia các giá trị không phải số nguyên, như 2.5 + 3.557, số thực đại diện cho việc có thể có dấu thập phân, trong khi FP16 đại diện cho độ chính xác hỗ trợ số thập phân, FP32 là độ chính xác thường gặp hơn. Theo kinh nghiệm thực tiễn, việc tiền huấn luyện )Pre-traning( một lần ) thường sẽ được huấn luyện nhiều lần ( mô hình lớn, khoảng cần 6np Flops, 6 được gọi là hằng số trong ngành. Còn suy diễn )Inference, là quá trình chúng ta nhập một dữ liệu và chờ đợi đầu ra của mô hình lớn (, được chia thành hai phần, nhập n token, xuất n token, thì tổng cộng cần khoảng 2np Flops.
Trong giai đoạn đầu, việc huấn luyện sử dụng chip CPU để cung cấp hỗ trợ tính toán, nhưng sau đó bắt đầu dần dần thay thế bằng GPU, chẳng hạn như một số chip GPU hiệu suất cao. Bởi vì CPU được sử dụng như một máy tính đa năng, nhưng GPU có thể được sử dụng như một máy tính chuyên dụng, hiệu quả tiêu thụ năng lượng của nó vượt xa CPU. GPU thực hiện các phép toán số thực chủ yếu thông qua một mô-đun gọi là Tensor Core.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI và ngành Tài sản tiền điện tử hội nhập: từ Độ sâu học đến mô hình lớn
AI x Crypto: Từ số không đến đỉnh cao
Sự phát triển gần đây của ngành AI được coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất của các ngành, ước tính đã tăng khoảng 20% hiệu suất công việc ở Mỹ. Khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, có thể hỗ trợ nhiều loại đầu vào và đầu ra khác nhau. Công nghệ học sâu đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, và làn sóng này cũng đã lan rộng đến ngành tiền điện tử.
Báo cáo này sẽ khám phá lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như ảnh hưởng của công nghệ học sâu đối với ngành. Phân tích sâu về tình trạng và xu hướng phát triển của chuỗi công nghiệp liên quan đến GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên trong học sâu. Thảo luận về mối quan hệ giữa tiền điện tử và ngành AI, đồng thời hệ thống hóa cấu trúc chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau để thực hiện trí tuệ nhân tạo trong bối cảnh các thời đại và các lĩnh vực khác nhau.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", khái niệm công nghệ này là để cho máy móc dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để huấn luyện mô hình, kiểm tra và triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, học máy có ba trường phái chính, lần lượt là chủ nghĩa kết nối, chủ nghĩa biểu tượng và chủ nghĩa hành vi, lần lượt bắt chước hệ thần kinh, tư duy và hành vi của con người.
Hiện nay, chủ nghĩa kết nối, đại diện bởi mạng nơ-ron, đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là cấu trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn. Một khi số lượng lớp và số lượng nơ-ron ( tham số ) trở nên đủ lớn, sẽ có đủ cơ hội để khớp với các nhiệm vụ tổng quát phức tạp. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số của nơ-ron, cuối cùng trải qua nhiều dữ liệu, nơ-ron đó sẽ đạt được trạng thái tối ưu ( tham số ), đây cũng là nguồn gốc của từ "sâu" - số lượng lớp và nơ-ron đủ lớn.
Ví dụ, có thể hiểu đơn giản là đã xây dựng một hàm, hàm này cho đầu vào X=2 thì Y=3; X=3 thì Y=5, nếu muốn hàm này phản ứng với tất cả các X, thì cần phải liên tục thêm bậc của hàm này và các tham số của nó, chẳng hạn có thể xây dựng một hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2, Y=11, thì cần phải xây dựng lại một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để bẻ khóa một cách mạnh mẽ phát hiện Y = X2 -3X +5, khá phù hợp, nhưng không cần hoàn toàn trùng khớp với dữ liệu, chỉ cần tuân thủ sự cân bằng, đầu ra tương tự là đủ. Ở đây X2 và X, X0 đều đại diện cho các nơ-ron khác nhau, còn 1, -3, 5 là các tham số của nó.
Nếu chúng ta nhập một lượng lớn dữ liệu vào mạng nơ-ron, chúng ta có thể tăng số lượng tế bào thần kinh và lặp lại các tham số để phù hợp với dữ liệu mới. Bằng cách này, chúng ta có thể phù hợp với tất cả dữ liệu.
Công nghệ học sâu dựa trên mạng nơ-ron cũng đã trải qua nhiều lần cải tiến và phát triển, từ mạng nơ-ron ban đầu, mạng nơ-ron hồi tiếp (RNN), mạng nơ-ron tích chập (CNN), mạng đối kháng sinh (GAN) cuối cùng phát triển thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng phát triển của mạng nơ-ron, thêm vào một bộ chuyển đổi (Transformer), dùng để mã hóa dữ liệu của tất cả các chế độ ( như âm thanh, video, hình ảnh, v.v. thành các giá trị tương ứng để biểu thị. Sau đó, chúng được đưa vào mạng nơ-ron, nhờ đó mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, tức là đạt được tính đa mô thức.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên là vào những năm 60 của thế kỷ 20, sau một thập kỷ khi công nghệ AI được đưa ra. Làn sóng này được gây ra bởi sự phát triển của công nghệ biểu tượng, công nghệ này đã giải quyết vấn đề xử lý ngôn ngữ tự nhiên và đối thoại giữa người và máy. Cùng thời gian đó, hệ thống chuyên gia ra đời, đây là một hệ thống chuyên gia hóa học hoàn chỉnh, hệ thống này có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy luận nhằm tạo ra câu trả lời giống như một chuyên gia hóa học. Hệ thống chuyên gia hóa học này có thể được xem như sự kết hợp giữa kho kiến thức hóa học và hệ thống suy luận.
Sau hệ thống chuyên gia, vào những năm 90, Judea Pearl ) đã đề xuất mạng Bayes, còn được gọi là mạng niềm tin. Cùng thời gian đó, Brooks đã đề xuất robot học dựa trên hành vi, đánh dấu sự ra đời của chủ nghĩa hành vi.
Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Garry Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển thứ hai.
Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba ông lớn trong lĩnh vực học sâu là Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng hình thành nên làn sóng công nghệ thứ ba, và đây cũng là thời kỳ hoàng kim của chủ nghĩa liên kết.
Nhiều sự kiện mang tính biểu tượng cũng đã xuất hiện dần dần cùng với sự khám phá và tiến hóa của công nghệ học sâu, bao gồm:
Năm 2011, Watson ( của IBM đã đánh bại con người và giành chiến thắng trong chương trình quiz "Jeopardy" ).
Năm 2014, Goodfellow đã đề xuất GAN( Mạng đối kháng sinh, Generative Adversarial Network), thông qua việc cho hai mạng nơ-ron cạnh tranh lẫn nhau để học, có thể tạo ra những bức ảnh giống thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách mang tên "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách nhập môn quan trọng trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này ngay lập tức gây ra tiếng vang lớn trong giới học thuật cũng như trong ngành công nghiệp.
Năm 2015, OpenAI được thành lập, nhiều nhà đầu tư nổi tiếng công bố cùng nhau đầu tư 1 tỷ đô la.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã chiến đấu với nhà vô địch cờ vây thế giới, kỳ thủ chuyên nghiệp 9 dan Lee Sedol và giành chiến thắng với tỷ số 4-1.
Năm 2017, một công ty công nghệ robot đã phát triển robot hình người Sophia, được coi là robot đầu tiên trong lịch sử có được quyền công dân hạng nhất, với khả năng biểu cảm khuôn mặt phong phú và khả năng hiểu ngôn ngữ của con người.
Năm 2017, Google đã phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, các mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI đã phát hành GPT( Generative Pre-trained Transformer) được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu hiệu tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, GPT-3 do OpenAI phát triển, có 175 tỷ tham số, cao hơn 100 lần so với phiên bản trước là GPT-2, mô hình này sử dụng 570GB văn bản để đào tạo, có thể đạt hiệu suất tiên tiến nhất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, dịch thuật, viết bài.
Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1,76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, đến tháng 3 ChatGPT đã đạt một trăm triệu người dùng, trở thành ứng dụng nhanh nhất trong lịch sử đạt một trăm triệu người dùng.
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều sử dụng các phương pháp học sâu dựa trên mạng nơ-ron. Mô hình GPT đã tạo ra một làn sóng nhiệt huyết trong lĩnh vực trí tuệ nhân tạo, với một lượng lớn người chơi đổ vào lĩnh vực này. Chúng tôi cũng nhận thấy rằng nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường đã bùng nổ mạnh mẽ, do đó trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi công nghiệp của các thuật toán học sâu, trong ngành AI do các thuật toán học sâu dẫn dắt, các bên trên và dưới của chuỗi công nghiệp được cấu thành như thế nào, và tình trạng hiện tại cũng như mối quan hệ cung cầu, phát triển trong tương lai sẽ ra sao.
Trước tiên, chúng ta cần làm rõ rằng, trong quá trình đào tạo các mô hình lớn LLMs dựa trên công nghệ Transformer với GPT là chính(, tổng cộng có ba bước.
Trước khi đào tạo, vì nó dựa trên Transformer, nên bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành số, quá trình này được gọi là "Tokenization", sau đó những số này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được xem một cách đại khái là một Token, trong khi mỗi chữ Hán có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng trong định giá GPT.
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp cho lớp đầu vào đủ cặp dữ liệu, giống như ví dụ được nêu trong phần đầu báo cáo )X,Y(, để tìm các tham số tốt nhất của từng nơ-ron trong mô hình, thời điểm này cần rất nhiều dữ liệu, và quá trình này cũng là quá trình tốn kém sức mạnh tính toán nhất, vì phải lặp đi lặp lại để các nơ-ron thử nghiệm các tham số khác nhau. Sau khi một lô cặp dữ liệu được huấn luyện xong, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lại nhằm lặp lại các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, sự thay đổi này sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc tiền huấn luyện cần rất nhiều dữ liệu, nhưng nhiều dữ liệu có thể có lỗi hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng.
Bước ba, học tăng cường. Đầu tiên sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi nó là "mô hình thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ khá đơn giản, vì bối cảnh kinh doanh khá cụ thể. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy có thể sử dụng một mô hình thưởng để tự động lặp lại các tham số của mô hình lớn. ) nhưng đôi khi cũng cần có sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình (
Nói một cách ngắn gọn, trong quá trình huấn luyện mô hình lớn, việc tiền huấn luyện yêu cầu một lượng dữ liệu rất cao, và sức mạnh GPU cần thiết cũng là lớn nhất, trong khi việc tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình thưởng để tạo ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì trần khả năng tổng quát càng cao, chẳng hạn như trong ví dụ về hàm Y = aX + b, thực ra có hai nơ-ron X và X0, vì vậy cách mà các tham số thay đổi, dữ liệu mà nó có thể khớp rất hạn chế, vì bản chất của nó vẫn là một đường thẳng. Nếu số lượng nơ-ron nhiều hơn, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp nhiều dữ liệu hơn, đó là lý do tại sao mô hình lớn có thể tạo ra những điều kỳ diệu, và cũng là lý do tại sao gọi một cách thông thường là mô hình lớn, bản chất chính là lượng lớn nơ-ron và tham số, lượng lớn dữ liệu, đồng thời cần một lượng lớn sức mạnh tính toán.
Vì vậy, hiệu suất của mô hình lớn chủ yếu được xác định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, và sức mạnh tính toán. Ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Giả sử số lượng tham số là p, khối lượng dữ liệu là n) được tính bằng số lượng Token(, thì chúng ta có thể tính toán lượng tính toán cần thiết bằng các quy tắc kinh nghiệm thông thường, từ đó ước tính tình hình sức mạnh tính toán mà chúng ta cần mua và thời gian huấn luyện.
Công suất tính toán thường được đo bằng Flops, đại diện cho một phép toán số thực, phép toán số thực là thuật ngữ chỉ sự cộng, trừ, nhân, chia các giá trị không phải số nguyên, như 2.5 + 3.557, số thực đại diện cho việc có thể có dấu thập phân, trong khi FP16 đại diện cho độ chính xác hỗ trợ số thập phân, FP32 là độ chính xác thường gặp hơn. Theo kinh nghiệm thực tiễn, việc tiền huấn luyện )Pre-traning( một lần ) thường sẽ được huấn luyện nhiều lần ( mô hình lớn, khoảng cần 6np Flops, 6 được gọi là hằng số trong ngành. Còn suy diễn )Inference, là quá trình chúng ta nhập một dữ liệu và chờ đợi đầu ra của mô hình lớn (, được chia thành hai phần, nhập n token, xuất n token, thì tổng cộng cần khoảng 2np Flops.
Trong giai đoạn đầu, việc huấn luyện sử dụng chip CPU để cung cấp hỗ trợ tính toán, nhưng sau đó bắt đầu dần dần thay thế bằng GPU, chẳng hạn như một số chip GPU hiệu suất cao. Bởi vì CPU được sử dụng như một máy tính đa năng, nhưng GPU có thể được sử dụng như một máy tính chuyên dụng, hiệu quả tiêu thụ năng lượng của nó vượt xa CPU. GPU thực hiện các phép toán số thực chủ yếu thông qua một mô-đun gọi là Tensor Core.