震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
DeepSeek-V2 的综合能力
中文综合能力(AlignBench):开源模型中最强,与 GPT-4-Turbo、文心 4.0 等闭源模型在评测中处于同一梯队
英文综合能力(MT-Bench) :处于第一梯队 英文综合能力(MT-Bench)与最强的开源模型 LLaMA3-70B 处于同一梯队,超过最强 MoE 开源模型 Mixtral8x22B
知识:知识、数学、推理、编程等榜单结果位居前列
上下文:开源模型和 API 支持 128K 上下文
性能
一些分析报告指出,DeepSeek V2 模型在训练时使用了高达8.1万亿个token,并且展示了令人难以置信的高效训练能力,其计算需求仅为Meta Llama 3 70B模型的五分之一。
换一种说法,DeepSeek-V2 在训练时所需的计算资源仅为 GPT-4 的二十分之一,但性能上却相差无几。
有外国网友对此给予了极高的评价,认为 DeepSeek V2 在仅有210亿个活跃参数的情况下,能够展现出如此强大的推理能力,实在令人震惊。
DeepSeek API 定价(价格屠夫)
作为AI技术的前沿领域,大模型更新换代之快有目共睹,再强的性能也可能在发布的下一秒就被友商反超。
因此,DeepSeek 选择“卷”价格。
目前DeepSeek-V2 API的定价为:每百万token输入1元、输出2元(32K上下文)。
和友商相比,仅为 GPT-4-Turbo 的近百分之一。
最后
DeepSeek 宣称,其使用8个H800 GPU的单台服务器在最佳状态下每秒能够处理超过50000个解码token。
如果只考虑按照输出 token 的 API 计费,那么每个服务器每小时可以赚取超过50美元。
假设服务器的使用率是100%,并且每个8个 H800 GPU 的服务器每小时的成本是15美元,那么 DeepSeek 的每台服务器每小时的净收益高达35美元以上,毛利率甚至超过70%。
有专家分析认为,即便服务器的使用率没有达到最大,或者批处理速度没有达到最高性能,DeepSeek 依然拥有可观的利润空间。
总结就是,主打一个“经济实惠”,简直就是AI版“拼多多”。