Token 可以理解成模型处理文本时的“最小工作单元”。它不一定等于一个字、一个词或者一个标点,更像是模型自己切出来的片段。英文里一个单词可能拆成几个 token,中文里一个短句也可能被拆成多个 token。
这件事看起来抽象,但它直接影响三件最现实的事:你能塞多少内容进去、一次对话会花多少钱、模型为什么有时会截断长文本。因为模型不是按“段落”理解世界,而是按 token 计算输入输出。
为什么用户总会遇到它
- 上传长文档时,系统会提示长度限制,本质上常常就是 token 不够了。
- 你觉得只说了一小段话,但实际 token 可能已经很多。
- 有些模型回答变短,不一定是它不想说,而是可用 token 预算快用完了。
很多人第一次接触 token,会误以为它只是计费单位。其实它更像模型的“语言颗粒度”。模型先把文字拆成 token,再做编码、注意力和生成,所以 token 也是理解上下文窗口的前提。对中文用户来说,标点、英文缩写、数字和代码块都可能让 token 数比直觉更高。也正因为如此,同样一段中文和英文内容,真正占用的 token 可能差别不小。
最实用的判断
如果你在做长文处理、知识库、提示词设计,别只盯字数,最好养成看 token 的习惯。尤其是中英文混合、代码、表格和大量标点的时候,字数和 token 数常常不是一回事。
一句话总结:token 是模型真正处理文本的计量单位,理解它,才能真正理解上下文、成本和长度限制。