Khả năng văn bản dài: "Tiêu chuẩn" mới của mô hình lớn
4000 đến 40 triệu token, mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kể.
Khả năng xử lý văn bản dài dường như đã trở thành một "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn.
Trên thế giới, OpenAI đã nâng cấp nhiều lần, tăng độ dài đầu vào ngữ cảnh của GPT-3.5 từ 4.000 lên 16.000 token, và GPT-4 từ 8.000 lên 32.000 token. Đối thủ của họ, Anthropic, đã mở rộng độ dài ngữ cảnh lên 100.000 token. LongLLaMA đã mở rộng độ dài ngữ cảnh lên 256.000 token hoặc thậm chí nhiều hơn.
Tại Trung Quốc, một số công ty khởi nghiệp mô hình lớn cũng đã đạt được bước đột phá trong lĩnh vực này. Ví dụ, một công ty đã phát hành sản phẩm trợ lý thông minh có thể hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Một nhóm nghiên cứu khác đã phát triển công nghệ mới LongLoRA, có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, và mô hình 70B lên 32.000 token.
Hiện nay, nhiều công ty công nghệ mô hình lớn hàng đầu và các tổ chức nghiên cứu trong và ngoài nước đã coi việc mở rộng chiều dài ngữ cảnh là trọng tâm của việc cập nhật và nâng cấp.
Các công ty và tổ chức này chủ yếu được thị trường vốn ưa chuộng. Ví dụ, OpenAI đã nhận được gần 12 tỷ đô la đầu tư; Định giá mới nhất của Anthropic có thể đạt 30 tỷ đô la; Một công ty trong nước chỉ mới thành lập được nửa năm cũng đã nhanh chóng hoàn thành nhiều vòng gọi vốn, định giá thị trường đã vượt quá 300 triệu đô la.
Tại sao các công ty mô hình lớn lại coi trọng công nghệ văn bản dài đến vậy? Việc mở rộng độ dài ngữ cảnh gấp 100 lần có ý nghĩa gì?
Bề ngoài, điều này có nghĩa là độ dài văn bản có thể nhập vào ngày càng dài, khả năng đọc của mô hình ngày càng mạnh. Từ việc ban đầu chỉ có thể đọc xong một bài viết ngắn, giờ đây có thể xử lý một cuốn tiểu thuyết dài.
Xét sâu hơn, công nghệ văn bản dài đang thúc đẩy sự ứng dụng của mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học. Trong những lĩnh vực này, khả năng tóm tắt, hiểu và trả lời câu hỏi của tài liệu dài là yêu cầu cơ bản, cũng là hướng cần được nâng cấp thông minh.
Tuy nhiên, độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy không thể vẽ một dấu '=' trực tiếp giữa việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn và việc mô hình hoạt động tốt hơn. Điều thực sự quan trọng là mô hình sử dụng hiệu quả nội dung ngữ cảnh như thế nào.
Hiện tại, việc khám phá độ dài văn bản trong và ngoài nước vẫn chưa đạt đến giới hạn. 400.000 token có thể chỉ là khởi đầu, các công ty lớn vẫn đang tiếp tục vượt qua rào cản công nghệ này.
Tại sao cần nâng cao khả năng xử lý văn bản dài?
Một người sáng lập công ty mô hình lớn cho biết, chính vì độ dài đầu vào bị hạn chế đã gây ra nhiều khó khăn cho việc triển khai ứng dụng mô hình lớn. Đây cũng là lý do mà nhiều công ty hiện đang tập trung vào công nghệ văn bản dài.
Ví dụ, trong các cảnh nhân vật ảo, do khả năng xử lý văn bản dài hạn chế, nhân vật ảo sẽ quên đi những thông tin quan trọng. Khi phát triển các trò chơi kiểu kịch bản, nếu độ dài đầu vào không đủ thì chỉ có thể giảm bớt quy tắc và thiết lập, ảnh hưởng đến hiệu quả của trò chơi. Trong các lĩnh vực chuyên môn như pháp luật, tài chính, việc phân tích và tạo ra nội dung sâu thường bị hạn chế.
Trên con đường hướng tới ứng dụng AI trong tương lai, văn bản dài vẫn đóng vai trò quan trọng. Các đại lý AI cần dựa vào thông tin lịch sử để đưa ra quyết định, ứng dụng AI gốc cần có ngữ cảnh để duy trì trải nghiệm người dùng mạch lạc và cá nhân hóa.
Nhà sáng lập này cho rằng, bất kể là văn bản, giọng nói hay video, việc nén dữ liệu khối lượng lớn mà không mất mát có thể đạt được mức độ thông minh cao. Giới hạn của mô hình lớn được xác định bởi khả năng thực hiện từng bước và số lượng bước thực hiện, trong đó khả năng thực hiện từng bước liên quan đến số lượng tham số, còn số lượng bước thực hiện chính là độ dài ngữ cảnh.
Đồng thời, ngay cả những mô hình có lượng tham số lớn cũng khó tránh khỏi vấn đề ảo giác. So với văn bản ngắn, văn bản dài có thể cung cấp nhiều ngữ cảnh và thông tin chi tiết hơn, giúp mô hình đánh giá chính xác hơn về ngữ nghĩa, giảm thiểu sự mơ hồ, nâng cao độ chính xác trong suy diễn.
Có thể thấy, công nghệ văn bản dài không chỉ giải quyết một số vấn đề ban đầu của mô hình lớn, mà còn là một trong những công nghệ then chốt để thúc đẩy ứng dụng trong ngành. Điều này cũng cho thấy mô hình lớn tổng quát đang bước vào giai đoạn mới, từ LLM chuyển sang kỷ nguyên Long LLM.
Thông qua một số sản phẩm mới được phát hành, chúng ta có thể nhìn thấy các tính năng nâng cấp của mô hình lớn Long LLM.
Đầu tiên là việc trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản dài. Ví dụ, có thể nhanh chóng phân tích nội dung chính của bài viết, trích xuất thông tin quan trọng từ báo cáo tài chính, hoặc trả lời câu hỏi về toàn bộ cuốn sách.
Về mặt mã, có thể tạo mã trực tiếp từ văn bản, thậm chí tái hiện quá trình mã hóa dựa trên tài liệu. Điều này đã tiến bộ một bước lớn so với các trang web tạo mã phác thảo trước đây.
Trong các tình huống đối thoại dài, có thể thực hiện vai diễn sống động hơn. Bằng cách nhập các tài liệu của nhân vật cụ thể, thiết lập âm điệu và tính cách, có thể trò chuyện một đối một với các nhân vật ảo.
Những ví dụ này cho thấy, robot đối thoại đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, điều này có thể là một công cụ khác để thúc đẩy ứng dụng trong ngành.
Có công ty nhắm đến ứng dụng siêu cấp tiếp theo dành cho người tiêu dùng: dựa trên công nghệ văn bản dài, phát triển nhiều ứng dụng từ mô hình cơ sở. Người sáng lập công ty dự đoán rằng thị trường mô hình lớn trong nước sẽ được chia thành hai trại doanh nghiệp và tiêu dùng, và trong thị trường tiêu dùng sẽ xuất hiện các ứng dụng siêu cấp dựa trên mô hình tự nghiên cứu.
Tuy nhiên, hiện tại vẫn còn nhiều không gian tối ưu cho các tình huống đối thoại dài trên thị trường. Ví dụ, một số không hỗ trợ kết nối mạng để lấy thông tin mới nhất, trong quá trình tạo ra không thể tạm dừng để chỉnh sửa, ngay cả khi có tài liệu nền hỗ trợ cũng có thể xuất hiện thông tin sai lệch.
Thách thức kỹ thuật của văn bản dài
Trong lĩnh vực công nghệ văn bản dài, có một "tam giác không thể" giữa độ dài văn bản, sự chú ý và sức mạnh tính toán.
Điều này thể hiện rằng: văn bản càng dài, càng khó để tập trung sự chú ý đầy đủ; khi sự chú ý có hạn, văn bản ngắn lại khó để hiểu đầy đủ thông tin phức tạp; việc xử lý văn bản dài cần rất nhiều sức mạnh tính toán, làm tăng chi phí.
Nguồn gốc của tình huống khó khăn này nằm ở việc hầu hết các mô hình đều dựa trên cấu trúc Transformer. Cơ chế tự chú ý quan trọng nhất trong cấu trúc này, mặc dù cho phép mô hình phân tích linh hoạt mối quan hệ giữa các thông tin, nhưng khối lượng tính toán sẽ tăng theo cấp số nhân khi chiều dài ngữ cảnh tăng lên.
Một số nghiên cứu chỉ ra rằng, bối cảnh quá dài sẽ làm giảm đáng kể tỷ lệ thông tin liên quan, và sự phân tán chú ý dường như là điều khó tránh khỏi. Điều này tạo ra mâu thuẫn giữa độ dài văn bản và sự chú ý, cũng như là nguyên nhân cơ bản khiến công nghệ văn bản dài của các mô hình lớn khó có thể vượt qua.
Đồng thời, sức mạnh tính toán luôn là nguồn tài nguyên khan hiếm. Trong triển khai thực tế, các doanh nghiệp khó có thể cung cấp hỗ trợ sức mạnh tính toán lớn, điều này yêu cầu các nhà sản xuất phải kiểm soát chặt chẽ mức tiêu thụ sức mạnh tính toán khi mở rộng tham số mô hình hoặc độ dài văn bản. Nhưng hiện tại, để vượt qua công nghệ văn bản dài hơn, thường cần nhiều sức mạnh tính toán hơn, tạo ra một mâu thuẫn khác giữa độ dài văn bản và sức mạnh tính toán.
Đối với điều này, các chuyên gia trong ngành cho biết, hiện tại chưa có giải pháp thống nhất cho việc mô hình hóa văn bản dài với mô hình lớn, nguyên nhân gây khó khăn chính là cấu trúc của Transformer, và một kiến trúc hoàn toàn mới đang được nghiên cứu phát triển.
Hiện tại, có ba hướng giải quyết khác nhau.
Sử dụng công cụ bên ngoài mô hình để hỗ trợ xử lý văn bản dài. Phương pháp chính là chia văn bản dài thành nhiều đoạn văn bản ngắn để xử lý, mỗi lần chỉ tải các đoạn văn bản ngắn cần thiết, tránh vấn đề mô hình không thể đọc toàn bộ văn bản dài cùng một lúc.
Xây dựng lại cách tính toán tự chú ý. Ví dụ, chia văn bản dài thành các nhóm khác nhau, thực hiện tính toán trong mỗi nhóm, thay vì tính toán mối quan hệ giữa từng từ, để giảm khối lượng tính toán và tăng tốc độ.
Tối ưu hóa chính mô hình. Ví dụ, tinh chỉnh dựa trên mô hình hiện có để nó có thể suy diễn ra chuỗi dài hơn; hoặc giảm số lượng tham số để nâng cao độ dài ngữ cảnh.
Nỗi khổ "tam giác không thể" của văn bản dài hiện tại có thể vẫn chưa có lời giải, nhưng điều này cũng làm rõ hướng khám phá của các nhà sản xuất mô hình lớn: tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, vừa có thể xử lý đủ thông tin, vừa có thể cân nhắc giữa tính toán sự chú ý và giới hạn chi phí sức mạnh tính toán.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Xử lý văn bản dài: Tiêu chuẩn mới của mô hình lớn Thách thức "Bộ ba tàn ác"
Khả năng văn bản dài: "Tiêu chuẩn" mới của mô hình lớn
4000 đến 40 triệu token, mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kể.
Khả năng xử lý văn bản dài dường như đã trở thành một "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn.
Trên thế giới, OpenAI đã nâng cấp nhiều lần, tăng độ dài đầu vào ngữ cảnh của GPT-3.5 từ 4.000 lên 16.000 token, và GPT-4 từ 8.000 lên 32.000 token. Đối thủ của họ, Anthropic, đã mở rộng độ dài ngữ cảnh lên 100.000 token. LongLLaMA đã mở rộng độ dài ngữ cảnh lên 256.000 token hoặc thậm chí nhiều hơn.
Tại Trung Quốc, một số công ty khởi nghiệp mô hình lớn cũng đã đạt được bước đột phá trong lĩnh vực này. Ví dụ, một công ty đã phát hành sản phẩm trợ lý thông minh có thể hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Một nhóm nghiên cứu khác đã phát triển công nghệ mới LongLoRA, có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, và mô hình 70B lên 32.000 token.
Hiện nay, nhiều công ty công nghệ mô hình lớn hàng đầu và các tổ chức nghiên cứu trong và ngoài nước đã coi việc mở rộng chiều dài ngữ cảnh là trọng tâm của việc cập nhật và nâng cấp.
Các công ty và tổ chức này chủ yếu được thị trường vốn ưa chuộng. Ví dụ, OpenAI đã nhận được gần 12 tỷ đô la đầu tư; Định giá mới nhất của Anthropic có thể đạt 30 tỷ đô la; Một công ty trong nước chỉ mới thành lập được nửa năm cũng đã nhanh chóng hoàn thành nhiều vòng gọi vốn, định giá thị trường đã vượt quá 300 triệu đô la.
Tại sao các công ty mô hình lớn lại coi trọng công nghệ văn bản dài đến vậy? Việc mở rộng độ dài ngữ cảnh gấp 100 lần có ý nghĩa gì?
Bề ngoài, điều này có nghĩa là độ dài văn bản có thể nhập vào ngày càng dài, khả năng đọc của mô hình ngày càng mạnh. Từ việc ban đầu chỉ có thể đọc xong một bài viết ngắn, giờ đây có thể xử lý một cuốn tiểu thuyết dài.
Xét sâu hơn, công nghệ văn bản dài đang thúc đẩy sự ứng dụng của mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học. Trong những lĩnh vực này, khả năng tóm tắt, hiểu và trả lời câu hỏi của tài liệu dài là yêu cầu cơ bản, cũng là hướng cần được nâng cấp thông minh.
Tuy nhiên, độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy không thể vẽ một dấu '=' trực tiếp giữa việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn và việc mô hình hoạt động tốt hơn. Điều thực sự quan trọng là mô hình sử dụng hiệu quả nội dung ngữ cảnh như thế nào.
Hiện tại, việc khám phá độ dài văn bản trong và ngoài nước vẫn chưa đạt đến giới hạn. 400.000 token có thể chỉ là khởi đầu, các công ty lớn vẫn đang tiếp tục vượt qua rào cản công nghệ này.
Tại sao cần nâng cao khả năng xử lý văn bản dài?
Một người sáng lập công ty mô hình lớn cho biết, chính vì độ dài đầu vào bị hạn chế đã gây ra nhiều khó khăn cho việc triển khai ứng dụng mô hình lớn. Đây cũng là lý do mà nhiều công ty hiện đang tập trung vào công nghệ văn bản dài.
Ví dụ, trong các cảnh nhân vật ảo, do khả năng xử lý văn bản dài hạn chế, nhân vật ảo sẽ quên đi những thông tin quan trọng. Khi phát triển các trò chơi kiểu kịch bản, nếu độ dài đầu vào không đủ thì chỉ có thể giảm bớt quy tắc và thiết lập, ảnh hưởng đến hiệu quả của trò chơi. Trong các lĩnh vực chuyên môn như pháp luật, tài chính, việc phân tích và tạo ra nội dung sâu thường bị hạn chế.
Trên con đường hướng tới ứng dụng AI trong tương lai, văn bản dài vẫn đóng vai trò quan trọng. Các đại lý AI cần dựa vào thông tin lịch sử để đưa ra quyết định, ứng dụng AI gốc cần có ngữ cảnh để duy trì trải nghiệm người dùng mạch lạc và cá nhân hóa.
Nhà sáng lập này cho rằng, bất kể là văn bản, giọng nói hay video, việc nén dữ liệu khối lượng lớn mà không mất mát có thể đạt được mức độ thông minh cao. Giới hạn của mô hình lớn được xác định bởi khả năng thực hiện từng bước và số lượng bước thực hiện, trong đó khả năng thực hiện từng bước liên quan đến số lượng tham số, còn số lượng bước thực hiện chính là độ dài ngữ cảnh.
Đồng thời, ngay cả những mô hình có lượng tham số lớn cũng khó tránh khỏi vấn đề ảo giác. So với văn bản ngắn, văn bản dài có thể cung cấp nhiều ngữ cảnh và thông tin chi tiết hơn, giúp mô hình đánh giá chính xác hơn về ngữ nghĩa, giảm thiểu sự mơ hồ, nâng cao độ chính xác trong suy diễn.
Có thể thấy, công nghệ văn bản dài không chỉ giải quyết một số vấn đề ban đầu của mô hình lớn, mà còn là một trong những công nghệ then chốt để thúc đẩy ứng dụng trong ngành. Điều này cũng cho thấy mô hình lớn tổng quát đang bước vào giai đoạn mới, từ LLM chuyển sang kỷ nguyên Long LLM.
Thông qua một số sản phẩm mới được phát hành, chúng ta có thể nhìn thấy các tính năng nâng cấp của mô hình lớn Long LLM.
Đầu tiên là việc trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản dài. Ví dụ, có thể nhanh chóng phân tích nội dung chính của bài viết, trích xuất thông tin quan trọng từ báo cáo tài chính, hoặc trả lời câu hỏi về toàn bộ cuốn sách.
Về mặt mã, có thể tạo mã trực tiếp từ văn bản, thậm chí tái hiện quá trình mã hóa dựa trên tài liệu. Điều này đã tiến bộ một bước lớn so với các trang web tạo mã phác thảo trước đây.
Trong các tình huống đối thoại dài, có thể thực hiện vai diễn sống động hơn. Bằng cách nhập các tài liệu của nhân vật cụ thể, thiết lập âm điệu và tính cách, có thể trò chuyện một đối một với các nhân vật ảo.
Những ví dụ này cho thấy, robot đối thoại đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, điều này có thể là một công cụ khác để thúc đẩy ứng dụng trong ngành.
Có công ty nhắm đến ứng dụng siêu cấp tiếp theo dành cho người tiêu dùng: dựa trên công nghệ văn bản dài, phát triển nhiều ứng dụng từ mô hình cơ sở. Người sáng lập công ty dự đoán rằng thị trường mô hình lớn trong nước sẽ được chia thành hai trại doanh nghiệp và tiêu dùng, và trong thị trường tiêu dùng sẽ xuất hiện các ứng dụng siêu cấp dựa trên mô hình tự nghiên cứu.
Tuy nhiên, hiện tại vẫn còn nhiều không gian tối ưu cho các tình huống đối thoại dài trên thị trường. Ví dụ, một số không hỗ trợ kết nối mạng để lấy thông tin mới nhất, trong quá trình tạo ra không thể tạm dừng để chỉnh sửa, ngay cả khi có tài liệu nền hỗ trợ cũng có thể xuất hiện thông tin sai lệch.
Thách thức kỹ thuật của văn bản dài
Trong lĩnh vực công nghệ văn bản dài, có một "tam giác không thể" giữa độ dài văn bản, sự chú ý và sức mạnh tính toán.
Điều này thể hiện rằng: văn bản càng dài, càng khó để tập trung sự chú ý đầy đủ; khi sự chú ý có hạn, văn bản ngắn lại khó để hiểu đầy đủ thông tin phức tạp; việc xử lý văn bản dài cần rất nhiều sức mạnh tính toán, làm tăng chi phí.
Nguồn gốc của tình huống khó khăn này nằm ở việc hầu hết các mô hình đều dựa trên cấu trúc Transformer. Cơ chế tự chú ý quan trọng nhất trong cấu trúc này, mặc dù cho phép mô hình phân tích linh hoạt mối quan hệ giữa các thông tin, nhưng khối lượng tính toán sẽ tăng theo cấp số nhân khi chiều dài ngữ cảnh tăng lên.
Một số nghiên cứu chỉ ra rằng, bối cảnh quá dài sẽ làm giảm đáng kể tỷ lệ thông tin liên quan, và sự phân tán chú ý dường như là điều khó tránh khỏi. Điều này tạo ra mâu thuẫn giữa độ dài văn bản và sự chú ý, cũng như là nguyên nhân cơ bản khiến công nghệ văn bản dài của các mô hình lớn khó có thể vượt qua.
Đồng thời, sức mạnh tính toán luôn là nguồn tài nguyên khan hiếm. Trong triển khai thực tế, các doanh nghiệp khó có thể cung cấp hỗ trợ sức mạnh tính toán lớn, điều này yêu cầu các nhà sản xuất phải kiểm soát chặt chẽ mức tiêu thụ sức mạnh tính toán khi mở rộng tham số mô hình hoặc độ dài văn bản. Nhưng hiện tại, để vượt qua công nghệ văn bản dài hơn, thường cần nhiều sức mạnh tính toán hơn, tạo ra một mâu thuẫn khác giữa độ dài văn bản và sức mạnh tính toán.
Đối với điều này, các chuyên gia trong ngành cho biết, hiện tại chưa có giải pháp thống nhất cho việc mô hình hóa văn bản dài với mô hình lớn, nguyên nhân gây khó khăn chính là cấu trúc của Transformer, và một kiến trúc hoàn toàn mới đang được nghiên cứu phát triển.
Hiện tại, có ba hướng giải quyết khác nhau.
Sử dụng công cụ bên ngoài mô hình để hỗ trợ xử lý văn bản dài. Phương pháp chính là chia văn bản dài thành nhiều đoạn văn bản ngắn để xử lý, mỗi lần chỉ tải các đoạn văn bản ngắn cần thiết, tránh vấn đề mô hình không thể đọc toàn bộ văn bản dài cùng một lúc.
Xây dựng lại cách tính toán tự chú ý. Ví dụ, chia văn bản dài thành các nhóm khác nhau, thực hiện tính toán trong mỗi nhóm, thay vì tính toán mối quan hệ giữa từng từ, để giảm khối lượng tính toán và tăng tốc độ.
Tối ưu hóa chính mô hình. Ví dụ, tinh chỉnh dựa trên mô hình hiện có để nó có thể suy diễn ra chuỗi dài hơn; hoặc giảm số lượng tham số để nâng cao độ dài ngữ cảnh.
Nỗi khổ "tam giác không thể" của văn bản dài hiện tại có thể vẫn chưa có lời giải, nhưng điều này cũng làm rõ hướng khám phá của các nhà sản xuất mô hình lớn: tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, vừa có thể xử lý đủ thông tin, vừa có thể cân nhắc giữa tính toán sự chú ý và giới hạn chi phí sức mạnh tính toán.