要不大家再等等，DeepSeek-V3只要持续发力，5090也就5499咯

《科创板日报》12月30日讯日前，深度求索DeepSeek-V3横空出世，在AI行业内引发巨震，关键原因之一就是预训练成本之低——这个参数量高达671B的大模型，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元。与此同时，DeepSeek-V3相比其他前沿大模型，性能却足以比肩乃至更优。
在这背后，DeepSeek-V3采用了用于高效推理的多头潜在注意力（MLA）和用于经济训练的DeepSeekMoE。研发团队证明，多Token预测目标（Multi-Token Prediction，MTP）有利于提高模型性能，可以用于推理加速的推测解码。后训练方面，DeepSeek V3引入了一种创新方法，将推理能力从长思维链模型（DeepSeek R1）中，蒸馏到标准模型上。这在显著提高推理性能的同时，保持了DeepSeek V3的输出风格和长度控制。
有观点认为，DeepSeek-V3极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降，甚至有观点将27日A股算力概念的下跌与之联系在一起。但也有观点认为，DeepSeek表现固然优秀，但其统计口径只计算了预训练，数据的配比需要做大量的预实验，合成数据的生成和清洗也需要消耗算力。此外，在训练上做降本增效不代表算力需求会下降，只代表大厂可以用性价比更高的方式去做模型极限能力的探索。
“最重要的是，我们正式进入了分布式推理时代。” 谈及DeepSeek-V3时，Lepton AI创始人兼CEO贾扬清针对推理方面指出，“一台单GPU机器（80×8=640G）的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型，但不论如何，都需要分布式推理来保证性能和未来扩展。”
中信证券研报也指出，近日，DeepSeek-V3的正式发版引起AI业内广泛高度关注，其在保证了模型能力的前提下，训练效率和推理速度大幅提升。DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普惠，助力AI应用广泛落地；同时训练效率大幅提升，亦将助力推理算力需求高增。

同算力消耗成本后成果基本一致的情况下。国产DeepSeek-V3成本是500w美元，nvdia成本是3个亿美刀。

不感兴趣

开通SVIP免广告

哈哈，卡吧十三级还能有这种不讲逻辑的认知也是绝的，你600万的能秒天秒地秒空气。

逆天楼主，你相信科创板，不如相信我今晚创业造显卡暴打英伟达

你是不是以为这种分布式训练卡和你臭打游戏的推理卡用的是一个

deepseek是开源模型，觉得模型量不对为啥不自己看看？
但是楼主的论证也不能直接说明显卡会降价吧

不感兴趣

开通SVIP免广告

算法会淘汰硬件，也会渐渐降低硬件依赖，g点会更快到来

黄狗要完了

是真是假，过1年就知道了。
你要信这些人，当年连花清瘟还能治新冠呢。

OpenAI的4o_mini的参数也挺低的

80亿左右
【微软论文泄露OpenAI机密：4o-mini只有80亿参数，网友直呼不敢置信-哔哩哔哩】网页链接

ds是开源的，价格几块钱/M而且注册还送免费额度，建议用一用再发表言论。工作向方面ds真的能打

在llm里是第一梯队水平。也就GPT/GEMINI/CLAIDE的新模型能和其对比，以claude为例，3.5haiku就是比不过ds3一点，至于gpt，4o（八月之后）和o1系列之外也比不过。Gemini型号太多不知道怎么说（）不过Gemini的脑子一直不行，就那样吧。而Claude3.5sonnet/gpt4o系列的新版本也只是在部分方面有优势，大部分是持平。
就是真喜欢看牢外的评论...公开的llm榜单ds也在很靠前的位置

不感兴趣

开通SVIP免广告

让子弹飞一会儿。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 3 4 5 6 下一页尾页
182回复贴，共6页
，跳到页

<<返回显卡吧

分享到:

日	一	二	三	四	五	六