迅维网

标题: 如何评价 GTX 1080/1070 系列显卡？ [打印本页]

作者: tcbxh2008 时间: 2017-11-10 15:48
今天发售，早上在美国当地零售店排了一小时的队伍抢到一块EVGA的gtx1080 founders edition. founders edition就是新的公版。

放几张图

网上的性能测试已经很多了，而且各个厂家的定制版本也陆续发布，性能会比公版更好，国内的知友们等一下也是值得的。

看到实物第一眼就醉了舍不得放进机箱里，散热器的棱角设计比titanx一代好看，感觉借鉴了蝙蝠车和兰博基尼的设计。

因为赶着周末装机器（然后玩bootywatch）早上六点起床骑一小时自行车排一小时队......选公版就是为了好看（我就是外貌协会）

顺便也是因为我的主板是mini-itx，机箱很小，blower散热器设计能把热量直接排到机箱外，而且公版显卡更好配水冷，以后有预算了再折腾。

作者: 5674152 时间: 2017-11-10 15:48
我觉得我可以放弃970sli的想法了卖了上1070得了。。。。

作者: YiHYcCgb 时间: 2017-11-10 15:48
提示: 作者被禁止或删除内容自动屏蔽

作者: buffona 时间: 2017-11-10 15:48
四月份chh上的普遍论调是1080/1070性能大概是目前的9系列对位显卡升级两代的产品，达到1070战980ti的水平，目前看来并没有，10系列显卡也是普通的一代升级产品。
新一代的高端显卡，亮点是28nm到16nm的巨大工艺飞跃。因为中间越过了22/20nm这一代，所以频率提升巨大，功耗下降明显。但是实际性能并没有780ti到980ti那么大的提升，价格定位说明以后还有一个旗舰卡1080ti（也要看amd的高端卡性能）。
同频性能相比目前的9系列显卡并没有提升，说明在构架上并没有明显的优化，下一代的1180系列可能才能更好的发挥出新工艺的性能。
总体评价有惊喜，但是没那么大。
反正我的980ti sli继续用！

作者: 2125326 时间: 2017-11-10 15:48
看来 amd这次给力了
nvidia给了崩盘价

作者: cy4080 时间: 2017-11-10 15:48
关于接下来入手显卡的选择，啰嗦三点：

1.这次帕斯卡架构的提升非常大，16nm Finfet工艺带来了更小的面积（意味着更低的成本）、最高180w的TDP、1.6GHz起步的核心频率和8pin供电，能耗比提升非常明显。但大规模铺货会在6.10以后，加上AMD北极星的入市，因此希望尝鲜的等到8月价格稳定了再入手比较合适。

2.注重性价比的，可以在5-7月间购入二手980/970，这段时间它们的跳水速度将会非常快，2200块买几乎全新的980，1500块买几乎全新的970将不是梦。

3.对性能需求没那么高的，还是收收心去买960/380吧，新一代显卡的1060以下级别基本都是马甲，早买麦克斯韦早享受。

作者: wason1 时间: 2017-11-10 15:48

作者: bdlove 时间: 2017-11-10 15:48
Nvidia:我发布GTX1080和GTX1070啦( ^_^)／
AMD:抱歉，我又要倒闭了(Д｀)
lntel:woc，别啊，这样我TM又要吃反垄断法了啊~Σ(っ °Д °;)っ

作者: buffona 时间: 2017-11-10 15:48
我买，我买还不行吗？

之前我自己关于1070的预测只猜对了一个价格其他全错，贴吧的预测猜对了8G显存和外形，舅舅党真厉害，价格错的离谱。
看贴吧里好多人说 1080比980SLI还要强，我是不信的，卡吧直播贴里提到了新卡皇 TEN TITAN X比980LI还要好，不知道怎么的到外面就传成了 1080比980SLI还要强。

目前1070的性能还不知道，估计可以接近980ti，但是价格基本可以确定了，只比970高一点点，当初970首发大多在2400-2600，几款顶级的2700-3000都有，目测新的1070首发价格不会比970首发价高太多，请大家，总而言之，准备好钱包，买买买买。

Founders Edition到底是什么意思，我觉得恐怕不是超频版，看以往的发布会，并没有把超频版和公版分开标价，而且有些970的公版还比非公版贵。我猜测Founders Edition是单精度双精度阉割的少一点的版本，是为专业工作服务的。

——————————————
老黄在最后说了一句GTX1070比泰坦X还要强，349美元，老黄说着还笑了一下。
另外，老黄还说： ......and for the Nvidia designed founder editions，这个“ Nvidia designed ” 怎么理解呢？
——————————————
现在从NV官网的图片看，1080比980SLI强的，原来是指VR性能。那么我可以不负责任地估计所谓的1070强于titanX，恐怕也是指VR，那么1070的实际性能到底如何？

作者: hoei 时间: 2017-11-10 15:48
有了 GTX 1080，听音乐音质应该会更上一层楼。而我放在卧室床下箱子底部的耳机也终于找到可以推动它的前端设备。

很期待。

作者: 傲雪风 时间: 2017-11-10 15:48
小明不小心把FURY Nano 掉到河里，河神看到了，就从河里拿出一个FURY 问是不是他的。小明摇头，河神又拿出一个FURY X 问他，小明依旧摇头，最后河神拿出FURY Nano ，小明点头说：“这个才是我的。” 河神大悦：“诚实的孩子，这三个烤火炉你都拿去吧。”
第二天，小黄听到了这个消息，他兴奋的跑到河边，把刚买的gtx1080扔进了河里。不一会儿河底就冒出了蓝光，一朵蘑菇云骤然飞起，河干了，只剩下一堆河神的骨灰。

作者: donaldjackie 时间: 2017-11-10 15:48
（1）刚买970/980/980ti/titan x的人可能会略尴尬

（2）老黄在发布会上确实说了1080两倍性能的事情。但是不知道是从哪个角度来说的，因为一来FP32也没有两倍，二来各种跑分也没有两倍。。。因此这个两倍值得到底是什么东西

（3）1070和1080的价格都出来了，1070差不多3000左右应该能搞定，1080的话，实际来看应该要6k了，但是即便如此，也比980ti好啊

（4）1070（FP32 6.5TF）应该能成为新一代省成本的DL神卡，基本上可以拿来替换以前被不少学校用来做深度学习的980ti 当然了，titan的话，还是有个显存大的优势在的。当然了，NV本身就发布了新一代的计算卡以及计算整机。这种东西换代的有点快，如果不是战略合作的话，靠采购也还是比较吃钱的，实验室里配了个不算特别好的四路K80，最后整机搞下来也差不多20w一台了

（5）GTX这个系列肯定还是面向游戏的了。话说在还不确定1060、1050的情况下，这东西入门都要3k了，也注定了面向人群的性质。一般的用户，花1k买显卡都觉得肉疼的，这些玩意儿也和他们无缘。不过我个人倒是更希望9系列的显卡赶紧一波大降价，还是可以借机捡漏的

（6）还是游戏，从NV这次动作来看，他们打算要大张旗鼓的推动VR了
只不过，如果VR的门槛这么高的话（显卡+VR设备），感觉普及起来路途遥远啊
如果只是土豪的玩具的话，对于硬件厂家和软件厂家都不是一件好事。
玩的人少，注定了软件内容会受限制的

作者: xujiahui 时间: 2017-11-10 15:48
大哥我是这篇文章的作者好吧，谁把我举报成为了不规范转载？
显卡市场好久没有像今天这么热闹了，Nvidia于今天早些时候正式发布了新一代的Geforce GTX 1080/1070显卡。相比较之前预测的晚了1个月，不过没关系，我们还是看到了Pascal游戏卡的真容。单8Pin接口，新一代的16nm FinFET制程工艺和超过当今旗舰显卡GTX Titan X 25-30%的性能让新一代的GTX 1080当之无愧地成为了如今的单芯卡皇。
上一次像今天这样激动还是在四年前，黄仁勋正式宣布了Kepler显卡的诞生，全新的GTX 680一经推出便技惊四座，40nm到28nm的制程工艺升级，再加上恐怖的架构升级，这与今天推出的Pascal游戏显卡竟是如此的相似。经过驱动的优化GTX 680面对GTX 580 SLI毫不逊色，有时候还处于一定的优势，这和现在GTX 1080比GTX 980SLI性能还要强劲一点是如此地相似。由此Nvidia开启了游戏显卡的新时代，显卡也不再是整机中的超级电老虎，随着显卡效率的逐渐提高，中低端显卡甚至都不用额外增加新的电源插口，尤其以第一代Maxwell显卡GTX 750为甚。
与此同时，AMD方面也没有多少落后，及时推出了全新的GCN架构的显卡，而且一用就是四代，虽然AMD近日在CPU上几乎没有竞争力，但是面对Nvidia的咄咄逼人，农企在显卡方面还是可以与之一战的。

但是Nvidia还是技高一筹，DX11年代还是占据了一定的优势，特别是当AMD的显卡因为功耗问题而饱受质疑的时候，Nvidia因为显卡功耗具有优势而受到玩家的追捧，于是在DX11年代Nvidia可谓是顺风顺水，没有遇到过什么障碍，除了饱受争议的“3.5GB+0.5GB”事件。
但是时间来到了2016年，这一切似乎都改变了，由于微软Win10的广泛安装，DX12时代开始来临，有越来越多的显卡开始支持DX12技术。由于GCN架构的先天优势，让AMD在DX12初期占尽优势，特别是Nvidia的显卡饱受“负优化”的质疑，比如Kelpler的GTX 770在一些游戏中甚至还不如Maxwell的中端显卡GTX 950。这让玩家们不断地质疑老黄是不是打算为新一代的Pascal显卡做广告。当然这些并不是重点，最令Nvidia受到玩家质疑的还是炒得火热的“Geforce 364.72”驱动事件。
之前的驱动基本都是小打小闹，大家最多的也只是吐槽Nvidia的负优化，但是Geforce 364.72却真真实实地让消费者开始怀疑Nvidia是否在认真地做驱动，甚至产生了利用这个驱动来推销Pascal显卡的想法。在更新了NVIDIA 364.72驱动之后，许多人都遇到了相同的问题。其中包括有蓝屏死机、系统崩溃和游戏卡帧等坑爹的情况，最严重的还有显卡变砖，更有甚者直接烧毁显卡，也就是俗称的BOOM。毫无疑问，大家对于Nvidia的信任达到了低谷。用网上最流行的话来说就是“为什么会变成这样呢……第一次购买了Nvidia的显卡，有了能做流畅运行各种游戏的卓越性能。两件快乐的事情重合在一起。而这两份快乐，又能给游戏玩家们带来更多的快乐。得到的，本该是得到完美的游戏体验……但是，为什么，会变成这样呢……为什么Geforce 364.72会那么坑爹啊！你和老黄，负优化了多少显卡啊！”而AMD则是老老实实地优化着自家的显卡，来让玩家获得最好的游戏体验。

▲AMD和Nvidia就像雪菜与冬马一样拥有海量的粉丝
就像小木曾雪菜和冬马和纱，Nvidia和AMD双方都拥有为数众多的粉丝。每天在网上相互抨击的文章和帖子是数不胜数，大家都认为自家购买的显卡是最好的，而把对方贬的一无是处，显卡如此，CP党争更是如此。白学家们为此甚至都研究出了两位女主角的人生轨迹，令人佩服。
当然我们对此保持中立，而我的挚爱就只有椎名真白一个，从不参与其他任何的CP之争之中。而对于AMD和Nvidia两家生产的显卡也保持着客观和中立，毕竟这两家显卡厂商都是十分优秀而且出众的，都代表了当今显卡的最先进水平。大家不必为此大费口舌，消费者该买的还是买，不会买的吹破天也不会买。对于AMD和Nvidia是这样，对于小木曾雪菜和冬马和纱也是这样。
今天老黄的确下了手好牌，新一代Pascal让我们看到了16nmFinFET制程带来的初步威力，在TDP减少的情况下（180W对250W）,GTX 1080公版还保持着对于目前的旗舰显卡GTX Titan X约20%的性能优势，几年来首次采用了旗舰单8Pin接口，而核心频率也前无古人的达到了2114MHz，这都是新的架构与制程升级带来的巨大提升。
上一次Nvidia推出最成功的Kepler显卡之前也是饱经质疑，Fermi带来的巨大功耗和GTX 590爆炸的传闻让Nvidia压力重重，他们急需一块新的显卡在打消人们对于这家老牌显卡厂商的质疑，于是Kepler诞生了，并且取得了成功。而如今，黄仁勋仍然需要一款卓越的显卡来让人们对Nvidia重新产生信任，目前看起来Pascal的确做到了。

压力又转向了AMD，目前我们对于北极星显卡的消息还是知之甚少，只知道将会采用全新一代的14nmFinFET制造工艺，而且定位也并不是旗舰，最多就是GTX 980至GTX 980Ti的水准，从目前看起来北极星对于新一代的GTX 1080和GTX 1070构不成太大的性能上的威胁。
或许AMD已经将宝押在了明年发布的Vega织女星上面：HBM2显存与最新的GCN 4.0架构让Vega有了能够与完整版的Pascal对抗的资本，AMD与Nvida在DX12的第一次大的决战将在明年的第一季度正式开始。到时候谁是16nm/14nm制程的显卡王者，谁会坐上卡皇的宝座，明年的一月注定是辉煌而又激动人心的。当然我们还是希望AMD能够在北极星10和11上面给点力吧。
冬马和纱和小木曾雪菜不应该是永恒的对手，而AMD和Nvidia的粉丝也应该取长补短，相互学习，况且在微软DX12的撮合下，连A/N混合交火都已经成为了可能，还有什么不可能的呢？或许未来最厉害的显卡性能或许就是新Titan与新Fury相互混交得到的。

作者: buffona 时间: 2017-11-10 15:48
黄仁勋一到发布会现场，所有人便都看他笑，有的叫道“黄仁勋，AMD倒闭了吗？” 他不回答，对ppt设计总监说：“要一张最新显卡的渲染图当作开场背景。”说着便从口袋里排出4张gtx1080。
他们又故意地高声嚷道：“黄仁勋，又窃取amd的技术了吧？” 黄仁勋不服，睁大眼睛说道：“凭什么污蔑人家清白。” “清白？一个月前我还看你和苏姿丰说给他100个亿让他把北极星的最新技术都给你” 黄仁勋便涨红了脸，额头上的青筋条条绽出：“谈生意不叫窃取！生意人的事，你们这些玩家懂什么。” 紧接着就是一堆难懂的话，什么“pascal的架构是我们自己研发的” “AMD不出一年就要倒闭” “14nm有什么用” “1080只卖599刀” “两弹一星”之类的。引得众人都哄笑了起来，发布会现场充满了快活的空气。

------------不黑黄总还是卡吧基佬？-----------
以下正文

NVIDIA CEO 黄仁勋表示，GeForce GTX 1080 的研发费用高达数十亿美元，笑称这足以把人送上火星了。
（吓得我赶紧把我的gt610扔了）
虽然老黄总是爱用那装逼的手势和各种装逼的词汇来吓吓我们，然而我们已经不怕了。

(骗你们的，其实只有这么长)

发布会上官方表示采用帕斯卡架构的 GTX 1080 要比 GTX 980Sli 甚至是 Titan X 还要快。GTX 1080 建议零售价 599 美元，5月27日上市。一同发布的还有减配版的 GTX 1070，379美元，6月10日上市。

发布会上黄总演示游戏的时候把答主吓的一脚踹翻了电脑主机。gpu频率竟然破了2Ghz……(让我先去默默拔下我那主机上的gt610然后骂一句艹你马比……) 再这样下去，就不光是amd了，(莫非intel的cpu都要被nvidia的黑科技取代……)

各种卡吧基佬显然已经被前几天几个月买的970 980气晕在厕所，那么，nvidia这定价是为什么呢？

据报道：AMD已经进入14nm时代，在DX12和VR上也有不少建树，而且Polaris10的性能让人这么期待，这次，可能真的不再是PPT上的打击了，而是真的会对N卡造成一定的威胁。

根据WccfTech透露的消息，目前已经有工作人员正在使用北极星显卡进行跑分和测试游戏性能，同时该工作人员将两台功耗测试器放置在插头上。来测得显卡的功耗，虽然数据并不是十分地清晰，但是还是可以隐约地看到两台功耗仪的读数，其中一台为127W，而另一台则为79W，这大大地低于目前显卡的功耗水平，要知道127W不单单是显卡的功耗，而是整机的功耗。
(470居然只有50w的功耗)

nvidia不得不在价钱上作出让步(然而还是比9系贵了那么一点)加上说自己研发费用高，让消费者觉得这是值的。

那么，我们会买吗？

显然，卡吧的基佬们已经是蠢蠢欲动，估计是气的扔掉970也要买1070。要知道TM的几天前买的970居然加上小两百块钱可以在一个月后买到1070那样比肩titanx的卡，基佬们一定都怒了，答主准备去收货一波(啊哈哈哈哈哈)

然而，对于大多数消费者，还是要等到农企的北极星出来才能真正决定买不买。

但是问题来了，a卡还能生存下去吗？

发布会一结束，大部分人称AMD又…要倒闭了。有人扬言：
“感觉今年不止卖楼了很可能要被收购或者破产了”
然而发布会还没有到来，我相信amd还是有实力可以和nvidia刚一下的，只要各方面都还可以控制住，谁又会知道amd会拿出怎样的黑科技呢，加上amd的神级优化，相信农企还可以撑上一段时间(手动滑稽）

至于那些想要上神卡却没钱的孩子，是时候该出手970 980了。但是我要提醒你们……小心老黄的负优化。

最后，在这个大型3D游戏满天飞的现在核弹已经是为vr领域铺路的石子了。毕竟现在的1080可以全特效至少60FPS运行现在的所有游戏。

答主希望看到价格的下降，性能的上升。之后就可以用vr玩了(其实我想用来看x片)

作者: TejUKCJa 时间: 2017-11-10 15:48
谢很多人邀，随口吐槽几句，仅针对小实验室做深度学习的用户。深度学习从计算的角度看来是科学计算的一个分支，但是，它与一般科学计算不一样的地方是，单精度（fp32）或半精度（fp16）也可能可以满足收敛需求。甚至，近来还有研究二值神经网络的，这样的网络依赖于大量的位运算（c.f. http://arxiv.org/abs/1511.00363）。所以，专业计算卡的双精度优势对深度学习的吸引力并没有那么大，尤其对于小实验室来说。

虽然有点啰嗦，但是还是申明一下：

1. 从性价比来说 1080/1070 肯定比 titan x 要高，1070 肯定要比 1080 性价比高，但是如果预算宽裕可以自行考虑，譬如说下一代更新。（不要问我小道消息啦，更新肯定每年都有啊）这几天（2016.7.23）Pascal 架构的 Titan X 也出来了，这篇文章提到的很多优点其实都是新架构 Pascal 带来的，至于如何选购，请自行考虑。下文的 Titan X 均指代 Maxwell 架构的 Titan X。

2. CUDA 8.0 才支持 GP 104 / GP 100，总之，对科学计算来说，可能得过几个月 1080 才能真正投入使用了。（c.f. https://devblogs.nvidia.com/parallelforall/cuda-8-features-revealed/）

3. 做 NLP 的用户请毫不犹豫选择 PASCAL 架构吧，尤其是做 Translation / QA 等任务的同行

=== ===

看完发布的第一感觉就是：好便宜啊！！好便宜啊！！好便宜啊！！！

Deep learning 已经成为普通人也能在不心疼电费的情况下也能摸下的新玩具啦！

鉴于做 deep learning 不上专业计算卡的一般都会选择 titan x，所以就拿 titan x 而不是 gtx 980 来比较。（如果不上 titan x 肯定选 1080，这没跑了！）

先上一个比较全面的数据比较：

Pascal 新架构的 unified memory 和一系列 feature 还是不错的。更重要的是，Pascal 某些调整使得它非常适合做 NLP 的任务。（具体是什么有空再详细解释了）

价格上，1080 大概是 titan x 的 1/2，更准确来说，是 0.6 倍，如果对价格敏感的甚至上 1070 也不错。

从核心数和 FLOPS 来看，Titan X 和 1080 差不多吧，cores 的话 1080 是 2560，Titan X 是 3072；TFLOPS 上 1080 是 9，Titan X 是 8。其实没差多少，非得要算准确的benchmark 就得跑具体的 task 来测试了，结论就是：计算性能上和 Titan X 差不多，甚至还要好一点。

然后 Memory 的话，较之 Titan X 的 12 GB，8 GB 的确是 1080 唯一的「缺点」。要是你问我买两张 1080 好呢还是一张 Titan X 好，那当然是两张 1080 好，尤其是在资金不足或者实验室初步开始小搞 deep learning 的时候。
还有功耗问题，1080 的 180 W 还是个优点，titan x 是 250 W，配机子的时候电源也可以买小一点啦，也能省一点钱。直观一点看下图：

还有个优点就是对于个人用户，1080 就是退可打游戏、玩 VR ，进可训练一些有趣而 fancy 的神经网络。:)

再说一点题外话。

做 DL 都很关心的显存大小问题，关于在 8 GB 在 deep learning 上够不够用这个问题，提两点。

第一是 model 本身比较大，8G 内存无法训练一个模型。我想套用一个经典的知乎句式：「Deep learning 诸 framework 在 scalability 上的努力程度之低还不足以责怪 nv 的显存太小」。早期的 DL framework 的显存管理其实挺有问题的（其实就是标准的「LEGO 式模型」便利带来的麻烦，为了接口统一而大量缓存中间结果），不过考虑到设计之初并没有料到后来发展成这样（但就算考虑到了也不会做没有必要的设计吧），而且为了便利开发，显式减内存会带来很多麻烦。以 kaiming 的 resNet 为代表，不难预测下一波大型 model 乱跑的潮流（非贬义），希望还是 framework 多给点力啦，这本应该是 framework 解决的（给出相应的接口、或者提供足够多的 example code），或者逐渐细分出来会有专门一个工具做 model parallel。譬如说这样的工作：

基于 Torch 的内存优化，无缝使用：GitHub - fmassa/optimize-net: OptNet
基于 MXNet 的内存优化：https://arxiv.org/abs/1604.06174

但现阶段（实验室里的）绝大多数工作都不会到这个级别，所以这里只是讨论极端情况了。（企业里的商业应用也是「极端情况」）

另外一个显存大小需求是来自调参，其中辛酸，不足为外人道也。这是客观存在的事实，虽然相信没有人喜欢「调参」，而且理论上是不「提倡」调参，但依然阻挡不了大家调到飞起是吧。 model 虽然不太大，但是需要同时跑多个程序找到比较适合的参数，这时候显存应该是多多益善的。但跨多台机器又不是 cluster 调参还是很痛苦的事，而工作站最多又只有 4 张卡。目前觉得比较好的解决方案是远程挂载一块硬盘到几台机器上（千兆直连）。所以购置了 8G 的 1080 可能唯一的缺点可能是在想要升级的时候不知道怎么处置（本来一机可以有 48 G 的显存），这个就有各种各样的处理方法啦，毕竟是一种短期与长期的 trade off。显卡除了卡本身还得考虑其他配套硬件的钱，至于是上 12 GB * 4 还是上 8 GB * 4，甚至 12 GB * 8、或者随便搭配，如果是只考虑价格，按下计算器就知道怎么决定了吧。

至于「同时跑多个程序会不会降低效率」，只吐槽一句：机器不睡觉，人可是睡觉的啊。但是，的确多个程序同时在跑是挺影响 GPU 的调度的，最差的情况是全 stall 在 I/O 上。

不过如果真的调参过的应该会发现，计算能力有时候才是 bottleneck，NLP 这边尤其如此。但是计算能力为什么成为 bottleneck，就我 profile 过的代码看来，就是 code 不够 GPU friendly 吧，离 SOL 之远，让人汗颜。

最后，各大 framework 的鏖战，我偏好 Torch，坚定不移支持 Torch 100 年不动摇哦！

图片取自：NVIDIA GeForce GTX 1080 Graphics Card Unleashed

=====

利益相关：nv computearch DL intern，口胡较多~~~~(>_<)~~~~见谅，有错谬之处烦请提出。

作者: chaojiwantong 时间: 2017-11-10 15:48
标题: 如何评价 GTX 1080/1070 系列显卡？
如何评价 GTX 1080/1070 系列显卡？

作者: darny 时间: 2017-11-10 15:48
作为在NVIDIA总部完整参与Pascal核心架构研发过程的人，我就补充几个新架构和图形渲染有关的亮点：

1. Pascal可以同时进行VR渲染的左右眼投影，这个和以往的多视口投影有本质不同，因为左右眼的投影矩阵不同。结果就是场景几何体只需要在顶点着色器里处理一遍，而不是以往的两遍。在几何量是瓶颈的时候，性能可以大幅提升。在像素着色是瓶颈时，可以看第二条。据我所知目前没有别家的GPU有这个能力，如果有请及时纠正我。再强调一下，ARM的multiview应用于VR虽然也只需要提交一次drawcall，但顶点着色器在硬件内部还是要执行两次，每次获得的层参数不同，而Pascal只需要执行一次顶点着色器，性能上有本质区别。

2. Pascal可以利用快速几何着色器（也是NV独有的技术）和多视口投影实现VR渲染的均匀采样，也就是每个单位角度的像素密度非常接近，而不是离透镜中心越远采样密度越高，导致不必要的性能浪费，这个特性可以让VR渲染在不影响结果正确性的前提下节约接近一半的像素计算量。推荐这篇文章：GTX1080 is Here! - Behind the Pixels - 知乎专栏

3. 支持指令级别的多任务抢占。假设GPU正在渲染三角形，或者执行计算任务，以往只能在当前着色程序完全执行完成之后才能进行任务切换（虽然可能只有微秒或毫秒级别的延时），而现在可以在着色程序执行一半时暂停，让给具有更高优先级的任务占有GPU计算资源。这对无人驾驶汽车非常有用，使得紧急任务可以立即被执行，当然多任务操作系统也能很好利用这点，包括调试GPU程序设置断点之类的。

其它小的点就忽略了。

作者: lillian0630 时间: 2017-11-10 15:48
从通用计算，更确切点深度学习，的角度来说，无论从功耗，价格（下面两图比较了N厂各卡），还是内存大小和带宽来看，GTX 1080/1070都比前面好。虽然1070和1080在价格，功耗，计算上基本是正比关系。但在付相同额外开销（CPU，内存，机器空间，后期维护）下，1080能得到的计算密度更高。

但nvidia有几个东西没有解释清楚。如果大家听过黄老大在今年GTC上的报告的话，估计会对P100的21 TFLOPs的半精度(FP16)计算能力有深刻印象。它的原理是把两个FP16并成一个FP32来计算。事实上这也是我们对pascal的最大期望之一。不管是去年NIPS，在GTC前N厂的一个小型deep learning meetup，还是盛会GTC，N厂员工一直说FP16是未来，号召我们大力支持。所以MXNet的小伙伴也花了很多精力折腾FP16，毕竟是两倍性能提升啊。

新卡出来后MXNet小伙伴Eric第一时间从N厂化缘了一块GTX 1080，兴高采烈准备测一下MXNet的FP16性能来搞个大新闻。实验跑下来结果眼镜碎一地。

在titanx上fp16比fp32快10%。基本正常。在1080上fp16比fp32慢一倍。 fullyconnected慢100倍。。。还可变的。。。

此时网上也是议论纷纷，甚至大家猜测是N厂故意限速了。咨询了N厂后，得到的答复是，GTX 1070/1080确实FP16不快，但是8-bit int (int8)很快哦，在30 TFLOPs以上，你们可以试试啊。汗一地。。。

更快的FP16还是int8

这几天研究下来，我尝试在这里不保证太多准确性的回答下为什么。我们知道P100用的核心是GP100，而GTX 1080、1070用的则是GP104. 下图是GP100的一个SM的架构图。

这里有包含单精度浮点和整数运算单元的core（下图所示），双精度运算的DP Unit，各种特殊函数例如sin/cos的SFU。可以看到core和DP Unit的比例是2：1所以导致P100的单精度和双精度运算能力是2:1的关系。而GP104的DP unit更少，所以双精度浮点运算能力比较低。

如果对比Pascal和它的前代例如Kepler和Maxwell，会发现SM图大同小异。所以我们以为N厂有特殊技术使得Pascal能够用FP32来算两个FP16. 而实际上是，只是Pascal没有画FP16 unit而已。所以GP100的FP16快，是因为它可以帮助计算FP16的单元多。而GP104没有那么多FP16单元（同样FP64也少），所以慢了。
但是，GP104有特别的技巧，uint8计算单元多。。。所以。。int8快了。。。
问题来了，到底N厂未来是走FP16还是int8路线呢？N厂回答是，我们先搞出来让你们玩着先。到时候看谁好用。根据目前情况看，FP16在有特殊技巧的帮助下，还是能够用来训练模型。而int8主要应用应该主要是在模型预测上。

总结Pascal目前有两个型号，GP100（对应Tesla P100）和GP104（对应GTX 1080/1070）。前者半精度浮点运算快（FP16），或者8-bit int（int8）运算强。如果是需要买新卡，建议上GTX 1080（不过目前供货不足）。如果考虑主要是做模型预测的话，也可以升级旧卡到GTX 1080。不然的话等年底可能的新卡GTX 1080 TI或者新的Titan X也不错。

欢迎光临迅维网 (https://www.chinafix.com/)