# 大模型长文本能力大比拼:从4000到40万token,AI"阅读力"飙升大模型正以惊人的速度提升其长文本处理能力。从最初的4000 token到如今的40万token,长文本能力似乎已成为大模型厂商的新标配。国际上,OpenAI通过多次升级将GPT-3.5的上下文输入长度从4千提升至1.6万token,GPT-4则从8千增至3.2万token。其竞争对手Anthropic更是一举将上下文长度提升至10万token。LongLLaMA甚至将上下文长度扩展到25.6万token以上。国内方面,大模型初创公司月之暗面推出的Kimi Chat可支持输入20万汉字,约合40万token。港中文与MIT合作开发的LongLoRA技术则可将7B模型的文本长度拓展到10万token,70B模型拓展到3.2万token。目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司和研究机构都将拓展上下文长度作为重点升级方向。这些公司普遍受到资本市场的青睐,融资规模和估值均呈现快速增长态势。大模型公司如此重视长文本技术,40万token的突破意味着什么?表面上看,这代表着模型的输入文本长度和阅读能力大幅提升。从最初仅能处理一篇短文,到现在可以阅读整本长篇小说,模型的应用场景得到显著拓展。更深层次来看,长文本技术正推动大模型在金融、司法、科研等专业领域的应用落地。长文档摘要、阅读理解、问答等能力是这些领域智能化升级的关键。然而,与模型参数类似,文本长度并非越长越好。研究表明,模型支持的上下文长度与效果之间并不存在简单的正相关。关键在于模型如何有效利用上下文内容。目前,长文本技术的探索仍未达到瓶颈。国内外大模型公司仍在持续突破,40万token可能只是一个开始。# 为何大模型公司竞相"卷"长文本?月之暗面创始人杨植麟表示,大模型输入长度的限制造成了许多应用落地的困境,这正是当前各大公司聚焦长文本技术的原因。例如,在虚拟角色场景中,由于长文本能力不足,虚拟角色可能遗忘重要信息。在开发剧本杀类游戏时,输入长度不够会导致规则和设定被削减,影响游戏效果。在法律、金融等专业领域,深度内容分析和生成也常常受到限制。长文本在未来的Agent和AI原生应用中扮演重要角色。Agent需要依靠历史信息进行规划和决策,AI原生应用则需要上下文来维持连贯、个性化的用户体验。杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,而执行步骤数即上下文长度。长文本技术不仅可以解决大模型早期的一些问题,还是推进产业和应用落地的关键技术之一。通过月之暗面新发布的Kimi Chat,我们可以一窥长文本时代大模型的升级功能:1. 超长文本的关键信息提取、总结和分析2. 代码生成与修改能力的提升3. 长对话场景中的角色扮演这些功能显示,对话机器人正朝着专业化、个性化、深度化的方向发展,有望成为推动产业落地和超级APP出现的重要抓手。# 长文本的"不可能三角"困境在长文本技术中,存在文本长短、注意力和算力的"不可能三角"困境。这表现为:1. 文本越长,越难聚集充分注意力,难以完整消化信息2. 注意力限制下,短文本无法完整解读复杂信息3. 处理长文本需要大量算力,提高成本这一困境的根源在于大多数模型基于Transformer结构。该结构中的自注意力机制使计算量随上下文长度呈平方级增长。目前主要有三种解决方案:1. 借助模型外部工具辅助处理长文本2. 优化自注意力机制计算3. 利用模型优化的一般方法长文本的"不可能三角"困境暂时还无解,但这也明确了大模型厂商的探索路径:在文本长短、注意力和算力三者之间寻找最佳平衡点,既能处理足够的信息,又能兼顾注意力计算与算力成本限制。
大模型长文本能力突破40万token 推动AI在金融法律等领域应用
大模型长文本能力大比拼:从4000到40万token,AI"阅读力"飙升
大模型正以惊人的速度提升其长文本处理能力。从最初的4000 token到如今的40万token,长文本能力似乎已成为大模型厂商的新标配。
国际上,OpenAI通过多次升级将GPT-3.5的上下文输入长度从4千提升至1.6万token,GPT-4则从8千增至3.2万token。其竞争对手Anthropic更是一举将上下文长度提升至10万token。LongLLaMA甚至将上下文长度扩展到25.6万token以上。
国内方面,大模型初创公司月之暗面推出的Kimi Chat可支持输入20万汉字,约合40万token。港中文与MIT合作开发的LongLoRA技术则可将7B模型的文本长度拓展到10万token,70B模型拓展到3.2万token。
目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司和研究机构都将拓展上下文长度作为重点升级方向。这些公司普遍受到资本市场的青睐,融资规模和估值均呈现快速增长态势。
大模型公司如此重视长文本技术,40万token的突破意味着什么?表面上看,这代表着模型的输入文本长度和阅读能力大幅提升。从最初仅能处理一篇短文,到现在可以阅读整本长篇小说,模型的应用场景得到显著拓展。
更深层次来看,长文本技术正推动大模型在金融、司法、科研等专业领域的应用落地。长文档摘要、阅读理解、问答等能力是这些领域智能化升级的关键。
然而,与模型参数类似,文本长度并非越长越好。研究表明,模型支持的上下文长度与效果之间并不存在简单的正相关。关键在于模型如何有效利用上下文内容。
目前,长文本技术的探索仍未达到瓶颈。国内外大模型公司仍在持续突破,40万token可能只是一个开始。
为何大模型公司竞相"卷"长文本?
月之暗面创始人杨植麟表示,大模型输入长度的限制造成了许多应用落地的困境,这正是当前各大公司聚焦长文本技术的原因。
例如,在虚拟角色场景中,由于长文本能力不足,虚拟角色可能遗忘重要信息。在开发剧本杀类游戏时,输入长度不够会导致规则和设定被削减,影响游戏效果。在法律、金融等专业领域,深度内容分析和生成也常常受到限制。
长文本在未来的Agent和AI原生应用中扮演重要角色。Agent需要依靠历史信息进行规划和决策,AI原生应用则需要上下文来维持连贯、个性化的用户体验。
杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,而执行步骤数即上下文长度。长文本技术不仅可以解决大模型早期的一些问题,还是推进产业和应用落地的关键技术之一。
通过月之暗面新发布的Kimi Chat,我们可以一窥长文本时代大模型的升级功能:
这些功能显示,对话机器人正朝着专业化、个性化、深度化的方向发展,有望成为推动产业落地和超级APP出现的重要抓手。
长文本的"不可能三角"困境
在长文本技术中,存在文本长短、注意力和算力的"不可能三角"困境。这表现为:
这一困境的根源在于大多数模型基于Transformer结构。该结构中的自注意力机制使计算量随上下文长度呈平方级增长。
目前主要有三种解决方案:
长文本的"不可能三角"困境暂时还无解,但这也明确了大模型厂商的探索路径:在文本长短、注意力和算力三者之间寻找最佳平衡点,既能处理足够的信息,又能兼顾注意力计算与算力成本限制。