迅维网

标题: 目前发现有些n卡的一颗显存坏了 会导致mats全部报错 [打印本页]

作者: fdgdsdsadsaf    时间: 2021-3-31 23:11
标题: 目前发现有些n卡的一颗显存坏了 会导致mats全部报错
目前发现有些n卡的显存坏了   会导致mats全部报错     有没有命令可以单独测试显存呢   

作者: Blue江    时间: 2021-4-1 05:02


可以考验你手工!!!

   单独上一两颗显上卡。就跑码了    每次上两颗显存

运行 ./mats -e 10 检测了
作者: Blue江    时间: 2021-4-1 05:07


  你弄之前,看资料没有!!

    显存分区??? 推荐你看一下这个贴子 https://www.chinafix.com/forum.p ... guid=hot&extra=

N卡 显存顺序排列是 逆时针数依次为 A1、B0、B1..

一般两颗显存为一个通道,高位显存在前,低位显存在后,有显存在背面的,把显存当作正面来看就行。
如正反面显存在同一个位置,那么正反面显存就看作一颗显存
作者: fdgdsdsadsaf    时间: 2021-4-1 11:42
Blue江 发表于 2021-04-01 05:02
可以考验你手工!!!

   单独上一两颗显上卡。就跑码了    每次上两颗显存

运行 ./mats -e 10 检测了

我是说有时候   一颗显存坏导致全部显存报错情况     也就是想知道    怎么单独测指定显存    不全部测
作者: 317518682    时间: 2021-4-2 09:46
神州的板子就这样。有时候一颗问题,全部报错
作者: 南鸿散人    时间: 2021-4-2 12:09
用mods 有关闭显存通道的命令
作者: 南鸿散人    时间: 2021-4-2 12:10
用mods 有关闭显存通道的命令
作者: 南鸿散人    时间: 2021-4-2 12:11
哪些n卡会有这种情况啊,说清楚,20系,10系还是更老的卡?
作者: fdgdsdsadsaf    时间: 2021-4-2 23:51
南鸿散人 发表于 2021-04-02 12:11
哪些n卡会有这种情况啊,说清楚,20系,10系还是更老的卡?

10系列的    目前没找到相关关闭通道命令
作者: mir03790    时间: 2021-5-14 07:34
那是软件版本不对,找错误最多那颗开干




欢迎光临 迅维网 (https://www.chinafix.com/) Powered by Discuz! X3.4