Công nghệ văn bản dài mô hình lớn bước vào giai đoạn mới, bí mật gì ẩn sau 4000 đến 40 triệu token?
Gần đây, khả năng xử lý văn bản dài của mô hình lớn đang được nâng cao với tốc độ đáng kinh ngạc. Từ ban đầu là 4000 token đến nay đã là 400.000 token, sự cạnh tranh giữa các nhà cung cấp mô hình lớn trong lĩnh vực này ngày càng trở nên gay gắt.
Trên thế giới, OpenAI đã nâng độ dài ngữ cảnh của GPT-3.5 và GPT-4 lên lần lượt là 16.000 và 32.000 token thông qua nhiều lần nâng cấp. Anthropic đã mở rộng độ dài ngữ cảnh của mô hình Claude lên 100.000 token. LongLLaMA thì đã đẩy con số này lên 256.000 token hoặc thậm chí cao hơn.
Trong nước, Kimi Chat do công ty khởi nghiệp 月之暗面 phát triển hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA được phát triển hợp tác giữa Đại học Hồng Kông và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, và mô hình 70B lên 32.000 token.
Hiện nay, nhiều công ty và tổ chức nghiên cứu hàng đầu về mô hình lớn, bao gồm OpenAI, Anthropic, Meta và Mặt Trăng Tối, đang xem việc nâng cao độ dài ngữ cảnh là hướng phát triển trọng điểm. Hầu hết các công ty này đều nhận được sự quan tâm mạnh mẽ từ thị trường vốn. OpenAI đã thu hút gần 12 tỷ USD đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ USD, trong khi Mặt Trăng Tối chỉ sau nửa năm thành lập đã hoàn thành nhiều vòng gọi vốn, với giá trị vượt quá 300 triệu USD.
Việc cải thiện khả năng xử lý văn bản dài có nghĩa là lượng thông tin mà mô hình có thể xử lý đã tăng lên đáng kể. Từ việc chỉ có thể đọc một bài viết ngắn ban đầu, đến nay có thể dễ dàng xử lý một cuốn tiểu thuyết dài, các ứng dụng của mô hình lớn đang không ngừng mở rộng. Công nghệ này có triển vọng ứng dụng rộng rãi trong các lĩnh vực chuyên môn như tài chính, pháp lý, nghiên cứu khoa học, và dự kiến sẽ thúc đẩy sự nâng cấp thông minh trong những ngành này.
Tuy nhiên, các chuyên gia chỉ ra rằng độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy rằng độ dài ngữ cảnh mà mô hình hỗ trợ không có mối quan hệ tuyến tính đơn giản với hiệu quả của nó. Quan trọng hơn là cách mà mô hình sử dụng thông tin ngữ cảnh một cách hiệu quả. Hiện tại, ngành công nghiệp vẫn đang tiếp tục khám phá công nghệ văn bản dài, 400.000 token có thể chỉ là một điểm khởi đầu.
Sự phát triển của công nghệ văn bản dài không chỉ giải quyết một số vấn đề mà các mô hình lớn gặp phải ở giai đoạn đầu, mà còn mở đường cho các ứng dụng công nghiệp tiếp theo. Điều này đánh dấu sự chuyển mình của các mô hình lớn từ LLM sang Long LLM.
Lấy Kimi Chat của Mặt Trăng Tối làm ví dụ, khả năng xử lý văn bản dài của nó thể hiện những lợi thế độc đáo trong nhiều tình huống:
Có thể phân tích nhanh các điểm chính của bài viết dài, trích xuất thông tin quan trọng.
Có thể xử lý toàn bộ sách hoặc tài liệu pháp lý chuyên nghiệp, hỗ trợ hỏi đáp sâu.
Có thể chuyển đổi trực tiếp bài báo thành mã và thực hiện các sửa đổi.
Hỗ trợ vai trò trong cuộc trò chuyện dài, thực hiện tương tác cá nhân hóa.
Các tính năng này cho thấy các mô hình lớn đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và chiều sâu, có khả năng trở thành điểm tựa mới để thúc đẩy ứng dụng ngành.
Tuy nhiên, sự phát triển của công nghệ văn bản dài cũng phải đối mặt với tình huống "tam giác không thể" khó khăn: độ dài văn bản, phân bổ sự chú ý và nhu cầu tính toán rất khó để cân bằng. Điều này chủ yếu xuất phát từ độ phức tạp tính toán của cơ chế tự chú ý trong cấu trúc Transformer tăng theo cấp bậc với độ dài văn bản.
Hiện tại, ngành công nghiệp chủ yếu áp dụng ba giải pháp để đối phó với thách thức này:
Sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài.
Tối ưu hóa cách tính toán của cơ chế tự chú ý.
Tối ưu hóa chính mô hình.
Mặc dù công nghệ văn bản dài vẫn đối mặt với nhiều thách thức, nhưng nó đã mở ra hướng phát triển mới cho các mô hình lớn. Trong tương lai, các nhà sản xuất mô hình lớn sẽ tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, phân bổ sự chú ý và nhu cầu tính toán để thúc đẩy sự phát triển và ứng dụng thêm của công nghệ này.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Cách mạng văn bản dài của mô hình lớn: sự đột phá và thách thức từ 4000 đến 400000 token
Công nghệ văn bản dài mô hình lớn bước vào giai đoạn mới, bí mật gì ẩn sau 4000 đến 40 triệu token?
Gần đây, khả năng xử lý văn bản dài của mô hình lớn đang được nâng cao với tốc độ đáng kinh ngạc. Từ ban đầu là 4000 token đến nay đã là 400.000 token, sự cạnh tranh giữa các nhà cung cấp mô hình lớn trong lĩnh vực này ngày càng trở nên gay gắt.
Trên thế giới, OpenAI đã nâng độ dài ngữ cảnh của GPT-3.5 và GPT-4 lên lần lượt là 16.000 và 32.000 token thông qua nhiều lần nâng cấp. Anthropic đã mở rộng độ dài ngữ cảnh của mô hình Claude lên 100.000 token. LongLLaMA thì đã đẩy con số này lên 256.000 token hoặc thậm chí cao hơn.
Trong nước, Kimi Chat do công ty khởi nghiệp 月之暗面 phát triển hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA được phát triển hợp tác giữa Đại học Hồng Kông và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, và mô hình 70B lên 32.000 token.
Hiện nay, nhiều công ty và tổ chức nghiên cứu hàng đầu về mô hình lớn, bao gồm OpenAI, Anthropic, Meta và Mặt Trăng Tối, đang xem việc nâng cao độ dài ngữ cảnh là hướng phát triển trọng điểm. Hầu hết các công ty này đều nhận được sự quan tâm mạnh mẽ từ thị trường vốn. OpenAI đã thu hút gần 12 tỷ USD đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ USD, trong khi Mặt Trăng Tối chỉ sau nửa năm thành lập đã hoàn thành nhiều vòng gọi vốn, với giá trị vượt quá 300 triệu USD.
Việc cải thiện khả năng xử lý văn bản dài có nghĩa là lượng thông tin mà mô hình có thể xử lý đã tăng lên đáng kể. Từ việc chỉ có thể đọc một bài viết ngắn ban đầu, đến nay có thể dễ dàng xử lý một cuốn tiểu thuyết dài, các ứng dụng của mô hình lớn đang không ngừng mở rộng. Công nghệ này có triển vọng ứng dụng rộng rãi trong các lĩnh vực chuyên môn như tài chính, pháp lý, nghiên cứu khoa học, và dự kiến sẽ thúc đẩy sự nâng cấp thông minh trong những ngành này.
Tuy nhiên, các chuyên gia chỉ ra rằng độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy rằng độ dài ngữ cảnh mà mô hình hỗ trợ không có mối quan hệ tuyến tính đơn giản với hiệu quả của nó. Quan trọng hơn là cách mà mô hình sử dụng thông tin ngữ cảnh một cách hiệu quả. Hiện tại, ngành công nghiệp vẫn đang tiếp tục khám phá công nghệ văn bản dài, 400.000 token có thể chỉ là một điểm khởi đầu.
Sự phát triển của công nghệ văn bản dài không chỉ giải quyết một số vấn đề mà các mô hình lớn gặp phải ở giai đoạn đầu, mà còn mở đường cho các ứng dụng công nghiệp tiếp theo. Điều này đánh dấu sự chuyển mình của các mô hình lớn từ LLM sang Long LLM.
Lấy Kimi Chat của Mặt Trăng Tối làm ví dụ, khả năng xử lý văn bản dài của nó thể hiện những lợi thế độc đáo trong nhiều tình huống:
Các tính năng này cho thấy các mô hình lớn đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và chiều sâu, có khả năng trở thành điểm tựa mới để thúc đẩy ứng dụng ngành.
Tuy nhiên, sự phát triển của công nghệ văn bản dài cũng phải đối mặt với tình huống "tam giác không thể" khó khăn: độ dài văn bản, phân bổ sự chú ý và nhu cầu tính toán rất khó để cân bằng. Điều này chủ yếu xuất phát từ độ phức tạp tính toán của cơ chế tự chú ý trong cấu trúc Transformer tăng theo cấp bậc với độ dài văn bản.
Hiện tại, ngành công nghiệp chủ yếu áp dụng ba giải pháp để đối phó với thách thức này:
Mặc dù công nghệ văn bản dài vẫn đối mặt với nhiều thách thức, nhưng nó đã mở ra hướng phát triển mới cho các mô hình lớn. Trong tương lai, các nhà sản xuất mô hình lớn sẽ tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, phân bổ sự chú ý và nhu cầu tính toán để thúc đẩy sự phát triển và ứng dụng thêm của công nghệ này.