网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
08月06日漏签0天
显卡吧 关注:7,735,968贴子:206,377,362
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 1 2 3 4 5 6 下一页 尾页
  • 182回复贴,共6页
  • ,跳到 页  
<<返回显卡吧
>0< 加载中...

要不大家再等等,DeepSeek-V3只要持续发力,5090也就5499咯

  • 只看楼主
  • 收藏

  • 回复
  • eric6899
  • Matrox
    13
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
《科创板日报》12月30日讯 日前,深度求索DeepSeek-V3横空出世,在AI行业内引发巨震,关键原因之一就是预训练成本之低——这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。与此同时,DeepSeek-V3相比其他前沿大模型,性能却足以比肩乃至更优。
在这背后,DeepSeek-V3采用了用于高效推理的多头潜在注意力(MLA)和用于经济训练的DeepSeekMoE。研发团队证明,多Token预测目标(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推测解码。后训练方面,DeepSeek V3引入了一种创新方法,将推理能力从长思维链模型(DeepSeek R1)中,蒸馏到标准模型上。这在显著提高推理性能的同时,保持了DeepSeek V3的输出风格和长度控制。
有观点认为,DeepSeek-V3极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降,甚至有观点将27日A股算力概念的下跌与之联系在一起。但也有观点认为,DeepSeek表现固然优秀,但其统计口径只计算了预训练,数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。此外,在训练上做降本增效不代表算力需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。
“最重要的是,我们正式进入了分布式推理时代。” 谈及DeepSeek-V3时,Lepton AI创始人兼CEO贾扬清针对推理方面指出,“一台单GPU机器(80×8=640G)的显存已经无法容纳所有参数。虽然更新大显存机器确实可以装下模型,但不论如何,都需要分布式推理来保证性能和未来扩展。”
中信证券研报也指出,近日,DeepSeek-V3的正式发版引起AI业内广泛高度关注,其在保证了模型能力的前提下,训练效率和推理速度大幅提升。DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地;同时训练效率大幅提升,亦将助力推理算力需求高增。


  • eric6899
  • Matrox
    13
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
同算力消耗成本后成果基本一致的情况下。国产DeepSeek-V3成本是500w美元,nvdia成本是3个亿美刀。


2025-08-06 21:56:12
广告
不感兴趣
开通SVIP免广告
  • 吾名道法天
  • Mali
    8
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
哈哈,卡吧十三级还能有这种不讲逻辑的认知也是绝的,你600万的能秒天秒地秒空气。


  • 飞鸟与狗
  • Vivante
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
逆天楼主,你相信科创板,不如相信我今晚创业造显卡暴打英伟达


  • -柠檬酸循环-
  • Wildcat
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
你是不是以为这种分布式训练卡和你臭打游戏的推理卡用的是一个


  • wly456wly
  • Voodoo
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
deepseek是开源模型,觉得模型量不对为啥不自己看看?
但是楼主的论证也不能直接说明显卡会降价吧


  • 暖阳照花
  • Adreno
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • 暖阳照花
  • Adreno
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


2025-08-06 21:50:12
广告
不感兴趣
开通SVIP免广告
  • eric6899
  • Matrox
    13
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼





  • Apexander
  • 先看吧规
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
算法会淘汰硬件,也会渐渐降低硬件依赖,g点会更快到来


  • liamlu521
  • Mali
    8
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
黄狗要完了


  • 任华为养海哈蟆
  • Wildcat
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
是真是假,过1年就知道了。
你要信这些人,当年连花清瘟还能治新冠呢。


  • Ironman42
  • Vivante
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
OpenAI的4o_mini的参数也挺低的80亿左右
【微软论文泄露OpenAI机密:4o-mini只有80亿参数,网友直呼不敢置信-哔哩哔哩】 网页链接


  • 滑稽滑稽滑
  • Vivante
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
ds是开源的,价格几块钱/M而且注册还送免费额度,建议用一用再发表言论。工作向方面ds真的能打在llm里是第一梯队水平。也就GPT/GEMINI/CLAIDE的新模型能和其对比,以claude为例,3.5haiku就是比不过ds3一点,至于gpt,4o(八月之后)和o1系列之外也比不过。Gemini型号太多不知道怎么说()不过Gemini的脑子一直不行,就那样吧。而Claude3.5sonnet/gpt4o系列的新版本也只是在部分方面有优势,大部分是持平。
就是真喜欢看牢外的评论...公开的llm榜单ds也在很靠前的位置


2025-08-06 21:44:12
广告
不感兴趣
开通SVIP免广告
  • 普通村民熊吉
  • PowerVR
    10
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
让子弹飞一会儿。


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 1 2 3 4 5 6 下一页 尾页
  • 182回复贴,共6页
  • ,跳到 页  
<<返回显卡吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示