deepseek吧 关注:128,452贴子:310,792
  • 5回复贴,共1
求助

70B模型无法调用GPU加速

只看楼主收藏回复

同志们啊 求助
我在windows上用ollama+web UI跑模型
显卡是双路2080TI 22G
跑千问3.0 32B模型双路显卡都能调用,没问题
但是跑DS-70B模型是CPU满载欸,显卡基本就不调用,这是什么道理啊。
真的虚心求教怎么修,32B的精度对比之下真的有点差强人意😭😭😭


IP属地:加拿大来自Android客户端1楼2025-05-07 01:47回复
    用api


    IP属地:河南来自Android客户端2楼2025-05-08 20:53
    收起回复
      2025-08-14 06:41:15
      广告
      不感兴趣
      开通SVIP免广告
      70b模型有43G大小, 而你的显存才44G,载入模型就把显存用光了,还占用了共享显存,运行的时候,稍微一点点上下文,比如1k上下文,你的显存都装不下,需要用共享显存,那cpu肯定很快100%。
      运行大模型不只是需要模型本身大小的显存,还需要上下文缓存kv显存,相同长度的上下文,模型越大缓存越大,要想10k上下文流畅运行,你的空余显存必须达到模型大小1倍,100k上下文需要的空闲显存成倍增长。


      IP属地:湖南3楼2025-05-08 21:15
      收起回复