Khả năng xử lý văn bản dài của mô hình lớn vượt qua 400.000 token, thúc đẩy ứng dụng AI trong các lĩnh vực tài chính, pháp lý và nhiều lĩnh vực khác.

robot
Đang tạo bản tóm tắt

Cuộc so tài khả năng đọc hiểu văn bản dài của mô hình lớn: từ 4000 đến 400000 token, "khả năng đọc" của AI tăng vọt

Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc. Từ 4000 token ban đầu đến nay là 400.000 token, khả năng văn bản dài dường như đã trở thành tiêu chuẩn mới của các nhà sản xuất mô hình lớn.

Trên thế giới, OpenAI đã nâng độ dài đầu vào ngữ cảnh của GPT-3.5 từ 4 nghìn lên 16 nghìn token thông qua nhiều lần nâng cấp, trong khi GPT-4 đã từ 8 nghìn tăng lên 32 nghìn token. Đối thủ của họ, Anthropic, đã nâng độ dài ngữ cảnh lên tới 100 nghìn token. LongLLaMA thậm chí còn mở rộng độ dài ngữ cảnh lên trên 256 nghìn token.

Tại Trung Quốc, công ty khởi nghiệp mô hình lớn 月之暗面 đã ra mắt Kimi Chat hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA phát triển bởi Đại học Hồng Kông và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token và mô hình 70B lên 32.000 token.

Hiện tại, nhiều công ty mô hình lớn hàng đầu và các tổ chức nghiên cứu như OpenAI, Anthropic, Meta, và Mặt Trăng Tối Đen đều coi việc mở rộng độ dài ngữ cảnh là một hướng nâng cấp quan trọng. Các công ty này đều nhận được sự ưa chuộng từ thị trường vốn, quy mô huy động vốn và định giá đều có tốc độ tăng trưởng nhanh.

Các công ty mô hình lớn rất coi trọng công nghệ văn bản dài, sự đột phá 400.000 token có ý nghĩa gì? Nhìn bề ngoài, điều này đại diện cho độ dài văn bản đầu vào của mô hình và khả năng đọc được cải thiện đáng kể. Từ việc chỉ có thể xử lý một bài viết ngắn, giờ đây mô hình có thể đọc cả một cuốn tiểu thuyết dài, giúp mở rộng đáng kể các trường hợp ứng dụng của mô hình.

Xét trên một cấp độ sâu hơn, công nghệ văn bản dài đang thúc đẩy việc áp dụng các mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, và nghiên cứu khoa học. Các khả năng tóm tắt tài liệu dài, hiểu biết đọc, và trả lời câu hỏi là chìa khóa cho việc nâng cấp trí tuệ trong những lĩnh vực này.

Tuy nhiên, tương tự như các tham số mô hình, độ dài văn bản không phải lúc nào cũng càng dài càng tốt. Nghiên cứu cho thấy không có mối tương quan đơn giản giữa độ dài ngữ cảnh mà mô hình hỗ trợ và hiệu quả. Chìa khóa nằm ở cách mà mô hình sử dụng hiệu quả nội dung ngữ cảnh.

Hiện tại, việc khám phá công nghệ văn bản dài vẫn chưa đạt đến ngưỡng. Các công ty mô hình lớn trong và ngoài nước vẫn đang tiếp tục đột phá, 400.000 token có thể chỉ là một khởi đầu.

Tại sao các công ty mô hình lớn lại cạnh tranh để "cuộn" văn bản dài?

Người sáng lập Mặt Trăng Tối Yang Zhilin cho biết, giới hạn độ dài đầu vào của mô hình lớn đã gây ra nhiều khó khăn trong việc triển khai các ứng dụng, đây chính là lý do mà các công ty lớn hiện nay tập trung vào công nghệ văn bản dài.

Ví dụ, trong các cảnh nhân vật ảo, do khả năng xử lý văn bản dài hạn chế, nhân vật ảo có thể quên thông tin quan trọng. Khi phát triển các trò chơi kiểu kịch bản giết người, độ dài đầu vào không đủ có thể dẫn đến việc giảm bớt quy tắc và thiết lập, ảnh hưởng đến hiệu quả của trò chơi. Trong các lĩnh vực chuyên môn như pháp lý, tài chính, phân tích và tạo nội dung sâu cũng thường bị hạn chế.

Văn bản dài đóng vai trò quan trọng trong các ứng dụng gốc Agent và AI trong tương lai. Agent cần dựa vào thông tin lịch sử để lập kế hoạch và ra quyết định, trong khi các ứng dụng gốc AI cần có bối cảnh để duy trì trải nghiệm người dùng liên tục và cá nhân hóa.

Yang Zhiling cho rằng, giới hạn của mô hình lớn được quyết định bởi khả năng từng bước và số bước thực hiện, trong đó khả năng từng bước liên quan đến lượng tham số, còn số bước thực hiện tức là độ dài ngữ cảnh. Công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề ban đầu của mô hình lớn, mà còn là một trong những công nghệ then chốt để thúc đẩy công nghiệp và ứng dụng.

Thông qua Kimi Chat mới được phát hành bởi Mặt Trăng Tối, chúng ta có thể nhìn thấy những tính năng nâng cấp của mô hình lớn trong kỷ nguyên văn bản dài:

  1. Trích xuất, tóm tắt và phân tích thông tin chính từ văn bản dài.
  2. Nâng cao khả năng tạo và sửa đổi mã
  3. Vai trò trong các tình huống đối thoại dài

Những chức năng này cho thấy, robot đối thoại đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, hứa hẹn sẽ trở thành công cụ quan trọng thúc đẩy sự hiện diện của ngành công nghiệp và sự xuất hiện của siêu APP.

Nghịch lý "tam giác không thể" của văn bản dài

Trong công nghệ văn bản dài, có một "tam giác bất khả thi" liên quan đến độ dài văn bản, sự chú ý và sức mạnh tính toán. Điều này thể hiện như sau:

  1. Văn bản càng dài, càng khó tập trung đủ sự chú ý, khó tiêu hóa thông tin một cách đầy đủ.
  2. Dưới sự giới hạn chú ý, văn bản ngắn không thể giải thích đầy đủ thông tin phức tạp
  3. Xử lý văn bản dài cần rất nhiều sức mạnh tính toán, tăng chi phí

Nguồn gốc của tình huống này nằm ở chỗ hầu hết các mô hình dựa trên cấu trúc Transformer. Cơ chế tự chú ý trong cấu trúc này khiến khối lượng tính toán tăng theo cấp số bình phương với độ dài ngữ cảnh.

Hiện tại có ba giải pháp chính:

  1. Sử dụng công cụ bên ngoài mô hình để hỗ trợ xử lý văn bản dài
  2. Tối ưu hóa tính toán cơ chế tự chú ý
  3. Các phương pháp chung để tối ưu hóa mô hình

Nỗi khổ "tam giác không thể" của văn bản dài tạm thời vẫn chưa có giải pháp, nhưng điều này cũng xác định rõ con đường khám phá của các nhà sản xuất mô hình lớn: tìm kiếm điểm cân bằng tốt nhất giữa chiều dài văn bản, sự chú ý và sức mạnh tính toán, vừa có thể xử lý đủ thông tin, vừa có thể cân nhắc tính toán sự chú ý và hạn chế chi phí tính toán.

TOKEN-0.13%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
metaverse_hermitvip
· 14giờ trước
Tiến bộ nhanh chóng trong khả năng đọc
Xem bản gốcTrả lời0
Whale_Whisperervip
· 14giờ trước
Đọc hiểu toàn văn không khó
Xem bản gốcTrả lời0
SelfSovereignStevevip
· 14giờ trước
Khả năng xử lý làm tôi ngạc nhiên.
Xem bản gốcTrả lời0
MoonRocketmanvip
· 14giờ trước
Khả năng đọc tăng tốc bay lên
Xem bản gốcTrả lời0
HashBanditvip
· 14giờ trước
token sẽ tăng mạnh
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)