大模型的token是怎么计算的?纯中文、纯英文、中英混合、数字混合都是怎么计算的,始终没找到一个清晰的计算方式说明。
大模型中Token的计算方法如下:
纯中文文本Token计算
估算比率:1个Token通常对应1.5-1.8个汉字。因此,若要估算中文文本的Token数量,可以将汉字总数乘以1.5至1.8。
纯英文文本Token计算
单词计数法:英文文本中,1个Token大致对应1个单词。
字母计数法:另一种估算方式是将字母数量除以3至4,以此来近似Token数量,因英文单词长度不一,此法为粗略估算。
中英混合与数字混合文本Token计算
对于中英混合或包含数字的文本,虽然没有直接的转换公式,但可以分别对中文和英文部分应用上述估算方法,数字通常会被视作英文单词或单独Token处理,具体取决于模型对数字的处理规则。
图片Token计算
图片转换为Token的规则较为复杂,依据图像的分辨率按比例换算。例如,分辨率为512*512像素的图像约等于334个Token,且图像的长或宽非28的整数倍时,会向上取整至28的整数倍计算。一张图最少4个Token,最多可至特定模型允许的最大Token数,如qwen-vl-max系列模型可接受单张图片最大输入为16384个Token。
请注意,不同模型有其特定的输入输出Token限制,务必参照具体模型的参数进行调整和计费。此外,标点符号和特殊字符在中英文中都会被视为独立的Token。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。