凯发天生赢家一触即发科技
微信号:UnionScience
扫描关注,更多最新动态
近日★✿✿ღ,国产开源大模型DeepSeek-V3凭借其卓越的性能和极低的训练成本★✿✿ღ,在全球科技圈引发了广泛关注和热议★✿✿ღ。这款由中国深度求索公司推出的AI大模型★✿✿ღ,不仅在技术上取得了突破性进展★✿✿ღ,更以开源的形式★✿✿ღ,为全球开发者提供了强大的工具★✿✿ღ,标志着中国在人工智能领域的崛起★✿✿ღ。
12月26日晚★✿✿ღ,幻方量化旗下AI公司深度求索(DeepSeek)宣布★✿✿ღ,全新系列模型DeepSeek-V3上线并同步开源★✿✿ღ,API服务已同步更新★✿✿ღ,接口配置无需改动★✿✿ღ,登录官网(即可与最新版 V3 模型对话★✿✿ღ。当前版本的 DeepSeek-V3 暂不支持多模态输入输出★✿✿ღ。
具体来说★✿✿ღ,DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型★✿✿ღ,每token激活参数为370亿★✿✿ღ,在14.8万亿token上进行了预训练★✿✿ღ。
Deepseek的中文名是“深度求索”★✿✿ღ,为量化巨头幻方量化的子公司★✿✿ღ。在硅谷金沙水磨坊★✿✿ღ,DeepSeek则被称作“来自东方的神秘力量”★✿✿ღ。
对于任何一个想要在大模型赛道上冒头的新人而言★✿✿ღ,OpenAI GPT-4o★✿✿ღ、Meta Llama-3.1-405B等成名许久的前辈都是需要挑战的对象★✿✿ღ,DeepSeek-V3能够快速引爆全球科技圈关注★✿✿ღ,正是得益于其不输前辈的性能★✿✿ღ。
·数学★✿✿ღ:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上★✿✿ღ,DeepSeek-V3 大幅超过了所有开源闭源模型★✿✿ღ。
非常有意思的是DeepSeek-V3虽然拥有高达6710亿的参数量★✿✿ღ,但每次推理仅激活370亿参数★✿✿ღ,这种设计使得它在保持高性能的同时★✿✿ღ,也具备了高效性★✿✿ღ。这一特点在全球范围内都极为罕见★✿✿ღ,使得DeepSeek-V3一经发布★✿✿ღ,便受到了技术社区的高度关注★✿✿ღ。
DeepSeek-V3采用了混合专家(MoE)架构★✿✿ღ,这是一种机器学习架构★✿✿ღ,通过组合多个专家模型★✿✿ღ,在处理复杂任务时能够显著提升效率和准确度★✿✿ღ。DeepSeek-V3的MoE架构包含256个专家★✿✿ღ,每次计算时动态选择前8个最相关的专家参与★✿✿ღ,这种设计既提高了计算效率★✿✿ღ,又确保了模型的准确性★✿✿ღ。
与此同时★✿✿ღ,DeepSeek-V3采用了无辅助损失的负载平衡策略★✿✿ღ,并设定了多token预测训练目标★✿✿ღ,提高了数据效率和模型的生成速度★✿✿ღ,使其生成吐字速度从20TPS大幅提升至60TPS★✿✿ღ,相比上代实现了3倍的提升★✿✿ღ。其预训练数据达到了14.8万亿★✿✿ღ,并且在数据处理流程上进行了改进★✿✿ღ,进一步提升了数据质量和模型性能★✿✿ღ。
此外★✿✿ღ,DeepSeek-V3还采用了创新的知识蒸馏方法★✿✿ღ,将推理能力迁移到标准LLM中★✿✿ღ,同时保留输出风格和长度控制★✿✿ღ,这种技术不仅提高了模型的推理性能★✿✿ღ,还使得模型在应用上更加灵活★✿✿ღ。
单看性能★✿✿ღ,DeepSeek-V3作为大模型赛道“新人”★✿✿ღ,其上演“长江后浪推前浪”的戏码并没啥问题金沙水磨坊★✿✿ღ,事实上★✿✿ღ,真正让DeepSeek-V3刷爆科技圈的也并非性能★✿✿ღ,而是成本★✿✿ღ!
深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3★✿✿ღ,仅花费了约558万美元★✿✿ღ。其训练费用相比GPT-4等大模型要少得多★✿✿ღ,据外媒估计金沙水磨坊★✿✿ღ,Meta的大模型Llama-3.1的训练投资超过了5亿美元★✿✿ღ。
这意味着DeepSeek-V3拥有极高的性价比★✿✿ღ,具体到GPU小时上的话★✿✿ღ,DeepSeek-V3训练仅需266.4万H800 GPU小时★✿✿ღ,加上上下文扩展与后训练★✿✿ღ,总计也不过278.8万GPU小时★✿✿ღ。与之对比★✿✿ღ,Llama3-405B的训练数据则高达3080万H100 GPU小时★✿✿ღ,DeepSeek-V3的训练成本优势可见一斑★✿✿ღ。这使得更多的企业和开发者能够承担起使用这一模型的成本★✿✿ღ,进一步推动了AI技术的普及和应用★✿✿ღ。
尤其是因为美国的出口管制限制★✿✿ღ,DeepSeek-V3无法使用最顶尖的NVIDIA GPU集群★✿✿ღ,但开发者们通过优化训练方法★✿✿ღ,在2048个带宽缩减版NVIDIA H800 GPU集群上实现了同样的效果★✿✿ღ。这种创新不仅展示了中国团队的技术实力★✿✿ღ,也打破了国际科技巨头对高端硬件资源的垄断★✿✿ღ。
OpenAI创始成员Karpathy甚至对此称赞道★✿✿ღ:“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易★✿✿ღ。DeepSeek-V3看起来比Llama-3-405B更强★✿✿ღ,训练消耗的算力却仅为后者的1/11★✿✿ღ。”
目前★✿✿ღ,DeepSeek-V3正式定价为每百万输入tokens 0.5元(缓存命中)/2元(未命中)★✿✿ღ,输出tokens每百万8元★✿✿ღ。这一价格远低于市场上其他大型语言模型的API价格★✿✿ღ,如Claude 3.5 Sonnet的输入价格为3美元/百万★✿✿ღ,输出价格为15美元/百万凯发k8旗舰厅app下载手机版★✿✿ღ。DeepSeek-V3的优惠价格使得更多用户能够负担得起使用大型语言模型的费用★✿✿ღ。
为了回馈用户★✿✿ღ,DeepSeek-V3还推出了45天的限时优惠活动★✿✿ღ。在优惠期间★✿✿ღ,API使用费最高直降80%★✿✿ღ,即每百万输入tokens 0.1元(缓存命中)/1元(未命中)★✿✿ღ,输出tokens每百万仅2元★✿✿ღ。这一活动进一步降低了用户的使用成本凯发k8旗舰厅app下载手机版★✿✿ღ,使得更多用户能够体验到DeepSeek-V3的强大功能★✿✿ღ。
2024年5月6日★✿✿ღ,幻方旗下深度求索(Deepseek)发布最新MoE模型DeepSeek-V2,并将模型的 API定价为:每百万tokens输入 1元★✿✿ღ、输出2元(32K 上下文)金沙水磨坊★✿✿ღ,价格仅为 GPT-4-Turbo 的近百分之一凯发k8旗舰厅app下载手机版★✿✿ღ,刷新了大模型 API 的低价记录金沙水磨坊★✿✿ღ。随后★✿✿ღ,部分国内大模型初创公司★✿✿ღ、互联网厂商★✿✿ღ、科技公司等陆续宣布模型 AP 降价★✿✿ღ,有些甚至将 API 免费提供★✿✿ღ。
技术上看★✿✿ღ,确实能够通过优化 Transformer 架构中的各个部件,实现推理成本的降低★✿✿ღ。DeepSeek V2 本身就是典型的实践★✿✿ღ,其降本逻辑在于★✿✿ღ:改进的 MOE 架构★✿✿ღ,降低训练成本★✿✿ღ;优化的 KV cache 机制★✿✿ღ,大幅降低推理成本★✿✿ღ。
如果其他国内模型厂商★✿✿ღ,同样在底层应用了类似的优化技术★✿✿ღ,那么降本就是已经发生的过去式★✿✿ღ,DeepSeekV2 在5月的降价或是激发各厂家拿出“技术降本”结果★✿✿ღ。字节火山引擎总裁谭待在 5月豆包发布会上也指明★✿✿ღ,降价的背后主要原因是技术★✿✿ღ,未来还有很多手段继续降低成本★✿✿ღ,并不亏损★✿✿ღ。
从DeepSeek V2开始★✿✿ღ,深度求索就引入MLA多头隐注意力机制★✿✿ღ,大幅降低了KV cache的大小★✿✿ღ。而DeepSeek-V3对于成本的降低主要可分训练成本和推理成本两个方面★✿✿ღ。
在降低训练成本上★✿✿ღ,DeepSeek-V3引入了FP8混合精度训练框架★✿✿ღ,首次验证了FP8训练在超大规模模型上的可行性和有效性★✿✿ღ。通过使用低精度数据格式进行训练★✿✿ღ,加速了训练过程并减少了内存使用★✿✿ღ,从而降低了训练成本★✿✿ღ,并引入DualPipe双向流水线★✿✿ღ,通过重叠前向和后向计算与通信来减少流水线气泡★✿✿ღ,提高了训练效率★✿✿ღ。高效的跨节点通信内核利用IB和NVLink带宽★✿✿ღ,进一步减少了通信开销★✿✿ღ。
而在降低推理成本上★✿✿ღ,DeepSeek-V3采用了混合专家模型(MoE)架构★✿✿ღ,每个专家模型只处理部分输入★✿✿ღ,提高了模型的效率和扩展性凯发k8旗舰厅app下载手机版★✿✿ღ。通过优化MoE架构中的专家负载均衡★✿✿ღ,进一步降低了推理成本★✿✿ღ。MLA(Multi-Head Latent Attention)机制则通过低秩压缩减少KV缓存★✿✿ღ,提高了推理效率★✿✿ღ。这种机制减少了推理过程中的计算量★✿✿ღ,从而降低了推理成本★✿✿ღ。
此外★✿✿ღ,DeepSeek-V3将DeepSeek-R1的推理模式融入其中★✿✿ღ,提高了模型的推理性能★✿✿ღ,借助提炼和优化推理能力★✿✿ღ,进一步降低了推理成本★✿✿ღ。
值得一提的是降价并不是国内“特色”★✿✿ღ,OpenAl已经进行了多次降价★✿✿ღ。OpenAl的 GPT-3.5 turbo 系列从 23年3月问世以来★✿✿ღ,已经经历了三次降价★✿✿ღ,最新价格与最初价格相比凯发k8旗舰厅app下载手机版★✿✿ღ,输入价格降低了75%,输出价格降低了 25%,上下文长度提升 4x;GPT-4 系列的 turbo 与 40 版本出现后也在屡次刷新 OpenAl 模型的价格底线 系列价格也在逐渐降低
在这种情况下★✿✿ღ,借 DeepSeek“技术降价”引起的大模型降本浪潮★✿✿ღ,通过压低价格吸引应用开发者★✿✿ღ,或是培养自身开发者生态的重要举措★✿✿ღ。开发者生态的繁荣★✿✿ღ,是形成“数据和场景→模型迭代→模型性能提升→更多开发者→更多数据”正向反馈的重要基础★✿✿ღ,短期牺牲部分成本★✿✿ღ,长期看或仍然划算★✿✿ღ。
5月★✿✿ღ,0penAl发布新的旗舰模型GPT-40:实现跨模态即时响应★✿✿ღ,相比GPT-4 Turbo,刷新SOTA实现性能飞跃金沙水磨坊★✿✿ღ。同月★✿✿ღ,Google发布Gemini1.5 Pro进阶版★✿✿ღ,实现200万tokens上下文★✿✿ღ,具备更强大的推理和理解能力★✿✿ღ。6月★✿✿ღ,Antropic发布Claude 3.5 Sonnet,具备更强的代码和视觉能力★✿✿ღ,基准测试结果全方位碾压Gemini 1.5 Pro和Llama-400b,大部分优于 GPT-4o★✿✿ღ,一定程度上暂时代表着当前大模型性能最高水平★✿✿ღ。
整体比较而言★✿✿ღ,国内大模型与GPT-4(官网)尚存在明显差距★✿✿ღ,但个别能力上已展现出优势★✿✿ღ,尤其是在长文本理解和应用上★✿✿ღ,国内长文本能力赶超了部分国外大模型★✿✿ღ。
抢占长文本这样的细分赛道外★✿✿ღ,降价抢占API调用量★✿✿ღ,撬动大模型“飞轮迭代”也成为国内大模型企业崛起的关键★✿✿ღ。随着技术进步和市场竞争★✿✿ღ,大模型训练&推理成本降低★✿✿ღ,国内大模型厂商纷纷降价金沙水磨坊★✿✿ღ,以吸引用户和提高市场份额★✿✿ღ。这里要提一句的是★✿✿ღ,降价不等于恶性竟争和模型缺陷★✿✿ღ,更多的是在技术支持下商业逻辑的打磨与模型能力的完善凯发k8旗舰厅app下载手机版★✿✿ღ,与其是DeepSeek“技术降价”★✿✿ღ,更成为国内大模型企业崛起的关键★✿✿ღ。
此次DeepSeek-V3的推出被视为中国AI技术从“追赶”到“领先”的转折点★✿✿ღ。它不仅在技术上实现了对国际顶尖模型的超越★✿✿ღ,还通过低成本和高性能的商业模式★✿✿ღ,为全球AI应用的推广提供了新的路径★✿✿ღ。未来★✿✿ღ,随着技术的进一步优化和硬件成本的降低金沙水磨坊★✿✿ღ,DeepSeek-V3有望在教育★✿✿ღ、医疗★✿✿ღ、金融等多个领域发挥更大的作用★✿✿ღ。凯发天生赢家一触即发凯发k8★✿✿ღ!AG凯发k8真人娱乐★✿✿ღ。凯发k8国际首页登录人工智慧★✿✿ღ,k8凯发★✿✿ღ,云端计算★✿✿ღ,
0871-63302133 63302233
昆明市盘龙区新兴路霖岚国际凯发天生赢家一触即发
http://www.gd-baijiayan.com