4889软件园:电脑手机软件下载大全,热门手机游戏免费下载

4889软件园 > 资讯文章 > 1713网络游戏(千面科学丨从科技到游戏,树状图如何影响我们的思维与观念)

1713网络游戏(千面科学丨从科技到游戏,树状图如何影响我们的思维与观念)

作者:佚名 来源:4889软件园 时间:2023-01-09 15:18:06

1713网络游戏(千面科学丨从科技到游戏,树状图如何影响我们的思维与观念)

1713网络游戏文章列表:

1713网络游戏(千面科学丨从科技到游戏,树状图如何影响我们的思维与观念)

千面科学丨从科技到游戏,树状图如何影响我们的思维与观念

戴一

我们对树应该都不陌生,其最为显著的特征就是不断分叉。类比自然界中树的形状,在其他领域中我们有了各种各样的树,本文将从数学上的树讲起,回顾其简单历史、性质和在其他领域的应用,并聚焦于游戏中的科技树,讨论游戏中采用这种树状结构的含义,尤其是历史模拟游戏中对历史的阐释起到的作用,以及这种思想外溢之后对大众文化的影响。

一、图论和计算机中的树

让我们从图论说起。最早使用图(Grah)这一术语的是英国数学家、律师詹姆斯·约瑟夫·西尔维斯特(James Joseph Sylvester,1814-1897),他在1878年用化学图(chemico-graphical image)表示数学与化学中分子的关系。图论中的最基础最简单的图被称为无向图(与有向图区分)或简单图(与多重图区分),包括节点和边两部分,边是用来形容节点之间的关系。上述语言是图论的语言(也可以等价转化成集合论的语言,两者关系类似于我们高中学数学用到的数形结合思想,即解析几何可以用代数方法解决几何问题),和日常生活中差别不大,比较容易理解。如图1中是有三个节点三条边的一个无向图、简单图。所谓无向,指的是边是没有方向的,不指向特定的方向(显然有向图可以视为是无向图的特殊子集,因为其方向确定了);所谓简单,指的是两节点之间只能有一条边连接。

图1:无向图、简单图

图论的树(Tree),指的任意两节点之间都有且仅有一条边的无向图;森林指的是任意两点之间至多仅有一条边的无向图。这和自然界中的概念就不太一样了,自然界中很多树组成一片森林,但是图论中,一棵树就可以是森林,但森林不一定是一棵树。

一棵树中,如果指定一个特殊节点称之为根,这样的树称之为有根树,有根树中其他节点到根的距离可以分层计算,称之为树的高度。熟悉计算机或者编程的朋友会发现这就是编程中常见的树的概念,其中最为基础和简单的就是n叉树,n=2时就是最简单的二叉树,所谓n叉树指的是有根树的每个节点下的子树都至多有n个。另外,树根据节点之间有无顺序可以分为有序树和无序树(也叫自由树),有序树指的是树中任意节点的子节点之间有顺序关系;无序树则任意节点的子节点都没有顺序关系。如前面说有向图可以视为特殊的无向图,类似有序树也可视为特殊的无序树。

在运用之前,补充一个无环的概念,无环就是节点之间没有形成闭环,图1就是一个有环图,我们日常运用的图大多数都是有向无环图(directed acyclic graph,DAG)。这里要着重指出,我们前面说过树是无向图,抽象一点说根和子树之间并不存在时间先后的必然性,并不是先有了根才能长出分叉,这和自然界中树先有根才能不断生长分叉是不一样的。但是由于人的思维过程和计算机存储的限制,很多时候即便我们意识到无向图、无序树的存在,仍是在按有向图、有序树的方式进行思考、处理。换句话说,单纯从数学上说,有向图和无向图、有序树和无序树肯定是有区别的,但是当我们用图和树来处理其他实际问题时,大多数时候树就坍缩成了有向无环图、无序树就坍缩成了有序树。

这些概念一时半会理解不了也没有关系,下面我们将举例进行说明。

二、科学技术中的树状图

树状图(dendrogram)这个词来自古希腊的树(déndron)和绘图(grámma),我们通常用它进行聚类分析(例如引文分析),也称树形图(tree diagram),与之类似的词还有树结构(tree structure)、树模型(tree model)。

这样的例子很多,在系统发育学中用来表示物种之间的关系时,称为系统发育树(phylogenetic tree),也就是我们熟知的演化树(evolutionary tree);在系谱学中,用来表示不同的家族关系,称之为系谱树(genealogy )或家族树(family tree),有意思的是,通常演化树的根在下面,树往上长,家族树通常祖先在上面,树往下长;在语言学中,用来表示字符串语法关系,称之为分析树(parse tree),也叫具体语法树(concrete syntax tree,CST),与之相对的是计算机中的抽象语法树(abstract syntax tree, AST),也称语法树(syntax tree),用于仿造自然语言的语法对计算机语言进行分析,值得一提的是,1965年语言学家、哲学家乔姆斯基(Avram Noam Chomsky,1928-)在《句法理论的若干问题》(Aspects of the Theory of Syntax)中同时使用了tree structure和tree model;在项目管理中,用来表示不同项目或行为之间的关系,称为决策树(Decision tree)。

这些树基本上都是有向图,即都是有方向的。演化树不用说,不同时间诞生不同物种;家族树也类似,不可能先有孩子再有父母,如果同一父母的孩子从左到右按年龄大小排列,这就还是一个有序树;决策树也一样,只有前一行为决策之后才会导致后续决策。当然树状图也并不总是表示时间的先后顺序,还可以用来表示贝叶斯概率,例如流传病学的树状图表现的是一个概率因果关系,而非时间。

这里比较有意思的是具体语法树和抽象语法树的区别。来看简单的例子,图2是一个简单的具体语法树。S代表句子(sentence),N代表名词(noun),VP代表动词短语(verb phrase),V代表动词(verb),NP代表名词短语(noun phrase),D代表限定词(determiner),这就是我们中学语文学过的基本的语法分析,我们可以说句子是由词语组成的,也可以说词语组成了句子,这里是没有方向的,完全取决于我们的出发点。但是如果用抽象语法树表示,用来检查一个句子是否完整,我们就会用上一些if句判断,有没有主语、主语是不是名词,是就进入下一步继续判断,不是则直接输出答案,这里的树本质上就是一个决策树,因为我们前置加了一个条件:判断一个句子是否完整。也就是说,抽象的语法被命名为具体语法树;具体用来验证编译的反而被命名为抽象语法树。

图2 具体语法树

另一个一般情况下被视为无向图的是百科全书式的图谱,最早是德尼·狄德罗(Denis Diderot,1713-1784)和让·勒朗·达朗贝尔(Jean le Rond d'Alembert,1717-1783)为《百科全书》(Encyclopédie)制作的具象人类知识系统(Figurative system of human knowledge)有时也被称为狄德罗和达朗贝尔之树(the tree of Diderot and d'Alembert),图3为网络流传的中译本。这成为知识分类的范本,今天包括情报学、图书馆学、生物分类学等等,仍在采用这种形式和表达。包括我们最常见的年表,本质上也是一种树状图,以年份为节点记录发生的事情,但节点和节点之间是有顺序的。

图3:具象人类知识系统

和前述语法树一样有趣的是,这种图谱本身是不包含什么明确方向的,但在计算机普及的今天,如果我们要进行分类,一定是先有父类才有子类的,比如我们要处理科幻是属于科学还是文学,人脑可以是这样的思维过程:科学(文学)下面有个分类是科幻,或者科幻是科学(文学)的分支。但是在计算机操作过程中,你一定是先建立一个父类科学或文学,父类应该包含什么要素和条件,再用子类去匹配。某种程度上这就是目前强AI努力的方向,因为现有的AI都是人为的规定好规则(父类),AI按照规则行事,这就是我们常说AI没有创造性的原因,一个最为简单的例子就是它不会创造规则(唯一有可能例外的是涌现),人类可以完成分类、发现新的种类、发明新的分类规则,机器只能按照已有的分类规则进行分类。类似的,AI也无法理解规则。例如前面我们说到家族树中的有序树,年龄按从小到大或者从大到小排列,人类能明白这两种排列的本质在于时间,年龄越大的出生越早,目前的AI还理解不了排列背后的含义。

三、游戏中的科技树

1980年弗朗西斯·特雷舍姆(Francis Tresham,1936-2019)发明桌游《文明》(Civilization)时就引入了科技树(Technology tree),这是最早在游戏中引入科技树的,但这款桌游和后来的文明系列(Sid Meier's Civilization)并没有什么关系。文明系列(1代诞生于1991年)、帝国时代系列(Age of Empires,1代诞生于1997年)、地球帝国(Empire Earth,1代诞生于2001年)、国家的崛起(Rise of Nations,2003)等历史战略游戏都引入了科技树。基本上都是随着时代演变逐步解锁不同的科技,每一项科技都以前一项(或几项)为前置条件。值得注意的是,technology明明只有技术的含义,但中译名总是要笼统地加入科学合称为科技,本文也基本沿用这种表述,但实际上游戏中的科技树包括自然科学、工程技术、宗教信仰、人文社科等诸多方面,直到2016年的《文明6》中才勉强将一些制度文化方面的科技单列出来形成市政树,但总体上仍是杂糅的。图4即为游戏中远古时代的科技树,显然书写并不会被认为是一项科学技术。

图4:《文明6》部分科技树

文化研究者图尔·吉斯(Tuur Ghys)就历史战略游戏中的科技树进行过深入研究,撰写了《科技树:历史战略游戏中的自由意志与决定论》(Technology Trees: Freedom and Determinism in Historical Strategy Games)等文章,出版了专著《攀爬科技树:历史战略游戏中的科技史》(Moving up the Tech Tree: The history of technology in historical strategy games)。吉斯以《文明4》、《帝国时代1》、《地球帝国1》、《国家的崛起》重点讨论了历史决定论的影响。所谓历史决定论包括三个方面:(1)科技树必然按一定顺序解锁发展;(2)科技必然影响社会发展;(3)由此影响每个时代,使得每个时代各具特色并且越来越强大。显然这是一种认为历史不断进步的技术乐观主义,今天已经被大多数学者所抛弃,但在大众心里仍颇具影响。吉斯也意识到所谓科技树其实名不副实,而且不同游戏选择的科技条目不太一样,即便选择的条目一样,赋予的效果也未必相同,这也称得上某种自由意志了吧。但是不同游戏的选择也有一些有意思的地方,比如上述四款游戏不约而同地选择了一神论,有些条目具体的效果虽然不一样但总体方向一致,比如灌溉总是增加粮食收入的,反映出某些基本共识。但是也闹过一些笑话,比如《帝国时代1》中不同国家科技树并不一样,波兰的科技树中完全没有货币,这显然不符合真实的历史。

我们需要回答两个问题:游戏中的科技树为什么这样设计,以及由此带来了什么影响。先回答第一个问题,吉斯文中也指出,与其称为科技树不如称为升级树(upgrade tree)。战略游戏中的科技树是一件新鲜玩意吗?并不是,在其他游戏特别是角色扮演游戏(RPG)中有极为类似的东西:技能树或天赋树。随着人物等级的提升,可以解锁不同的天赋、技能,让角色更强大。这和战略游戏中的科技树有什么本质区别吗?看起来历史游戏中科技不断升级、影响社会进步,本质上不就是打怪升级点技能吗?本质上都是有向无环图的底层逻辑,都是为游戏叙事服务的,让玩家知道自己的长中短期发展目标,如何规划自身发展。

当然,要了解科技树本质上是为叙事服务的,我们还可以类比看一看游戏中的情节选项分支,尤其是文字冒险游戏(TAVG)中的剧情分支流程图,就更能理解为什么科技树本质上和剧情流程毫无区别了,如图5是《底特律变人》的剧情分支。在文字冒险游戏中,通过类似的流程图(绝大部分和科技树一样是有向无环图)来推进剧情,并通过剧情分支引导玩家游玩不同的游戏剧情,通常这些流程图也是简单的单向线性的,因为如果叙事结构本身也很复杂的话,会提高玩家的上手门槛,所以即便是时间穿越或循环、无限流等内容的游戏,大部分的剧情分支也是线性的,可以使用这样的树状图描绘出来。特别是对于部分美少女游戏(galgame)等注重剧情分支的游戏而言,由于素材重复利用率高,又和TAVG高度重合,通过设计同一关卡的不同剧情导向不同结局,能一定程度上将素材重复利用率高的劣势转化成玩家多周目游玩的优势。

图5:《底特律变人》剧情分支

在其他战略游戏例如《星际争霸》(StarCraft)中,科技树基本全是军事类的,因为游戏本身只能靠战争获胜,主打的也是战争,在历史战略游戏中因为想让玩家有更好的代入感,采用了几个真实世界的科技名词而已,不然如果把长城当成美利坚或者巴西的特色科技,玩家就太容易出戏了。此外,游戏之所以设计成线性的、有回报的,是为了迎合玩家的心理,不然和现实一样,投简历、考研反复失败,失败还不会增加后续胜率,就太影响玩家体验了。

但是,这种设计很容易潜移默化地影响玩家的历史观念,导致玩家认为历史发展是线性的,导致思路被限定死。我们前面说过,树形图的有向性通常体现为时间,随着时间发展,攀爬科技树总是进步的,哪怕有些科技树是横着的(例如《文明6》),有的是从上往下长的(例如《银河破碎者》)。除了决定论这一点外,这类科技树还忽略了很多其他东西。第一,像《文明6》这样所有文明都用一套科技树(当然不同文明可以适当修饰自己的部分科技,以示区别,但这更多是为了突出游玩的趣味性和不同文明的差异性),本质上是强调科技的普适性以及文明发展的普适性,但实际上不同文明发展从根本上就不一样,《文明6》的科技树是完全欧洲中心主义的。第二,不同科技之间是否有前置条件并不像游戏显示的那样简单,而且我们说过树形图是只有时间上的顺序关系的,因此反映的仅仅是不同时间科技的影响,前序科技会影响后序科技,没有考虑同一时期科技的互相影响。第三,将社会的发展完全归功于科技进步是完全错误的,科技树的攀爬本身也简化了科技本身发展的复杂过程。

这一趋势已经从游戏扩散到了网文,很多网文作者要么本身就爱打游戏,要么受游戏文化影响颇深,导致很多穿越文、科幻文都喜欢用科技树作为行文的框架,本质上和游戏用人物升级来驱动情节是一样的。

当然这不是提出另一种游戏有害论,指责游戏特别是历史游戏误人子弟,而是指出游戏设计的逻辑必然导致某种价值观,这种价值观是蕴含于游戏设计本身的。进一步说,工具本身就是蕴含价值取向的,树形图天然就是线性的。事实上,一旦我们将科技树替换成魔法技能,就不会受这么大的影响。本质上我们仍应该牢记哲学家的教导:未经审慎的人生是不值得过的。如果游戏设计、网文习惯套用一套设计模板和框架,看的多了玩的多了也就知道套路了,玩家和读者应该避免程式化的叙事带来的潜移默化的影响,创作者也应该避免路径依赖带来的创作懈怠。

责任编辑:朱凡

校对:徐亦嘉

大乐透21072期开奖:头奖1注1713万花落山东 2注951万分落安徽广东

6月26日晚,大乐透游戏第21072期开奖。本期总销量3.03亿多元,筹集公益金1.09亿多元。

本期出球顺序:前区03 22 02 15 26;后区03 11

本期开奖号码:前区02 03 15 22 26;后区03 11

本期一等奖开出3注,1注为1713万多元(含761万多元的追加奖金)追加一等奖,2注为951万多元的基本一等奖。

唯一1注追加一等奖被山东济南的购彩者揽获。2注基本一等奖,1注出自安徽,1注花落广东。

本期二等奖开出123注,48注为21万多元的追加二等奖,75注为11.7万多元的基本一等奖。

末等奖开出7,214,366注。

计奖结束后,627,008,381.09元奖金滚入下期奖池。

本期兑奖截止日为2021年8月25日,逾期作弃奖处理。

必恩威 GeForce RTX4090 24GB XLR8 Gaming VERTO EPIC-X ARGB OC显卡评测

本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:gaojie20

前言

▲1984年上映,由詹姆斯·卡梅隆导演,阿诺·施瓦辛格主演的《终结者》豆瓣评分高达8.2分,其中故事背景中的天网是人类于20世纪后期创造的以计算机为基础的人工智能防御系统。之后自我意识觉醒,视全人类为威胁。电影剧情中,公元2029年,经过核毁灭的地球已由电脑“天网”统治,人类几乎被消灭殆尽。一个叫约翰·康纳的军事领袖召集幸存者一起对抗天网,组建了反抗军组织。

▲其续集于2003年上映的《终结者3》片中显示,天网的算力是60TFLOP/s,也就是每秒60万亿次浮点运算。

▲其续集于2003年上映的《终结者3》片中显示,天网的算力是60TFLOP/s,也就是每秒60万次F浮点运算

▲而在2022年的今天,英伟达最新发布的Ada Lovelace架构新旗舰RTX 4090在3.15 GHz频率下算力可以达到100TFLOP,所有也有网友调侃:看起来无所不能的天网,算力只相当于0.6张RTX 4090显卡。值得寻味的是《终结者》电影上映时间是1984年,而世界上第一块显卡发明于1981年,还是8位ISA显卡。时间催化科技落地再击穿曾经电影中的科幻数据,究竟是剧本预设太保守,还是科技进步太迅速呢?

NVIDIA Turing GPU 架构于 2018 年推出,由TSMC 12nm工艺制造,开创了 3D 图形和 GPU 加速计算的未来。图灵在 PC 游戏、专业图形应用程序和深度学习推理的效率和性能方面取得了重大进步。使用新的基于硬件的加速器,Turing 融合了光栅化、实时光线追踪、人工智能和模拟,以在 PC 游戏中实现令人难以置信的真实感和电影品质的互动体验。

▲两年后的 2020 年,由Samsung 8nm 8N工艺制造的NVIDIA Ampere 架构整合了更强大的 RT 核心和Tensor核心,以及一种新颖的 SM 结构,与 Turing GPU 相比,该结构可提供 2 倍 FP32 时钟对时钟的性能。这些创新使得 Ampere 架构在传统光栅图形中的运行速度比 Turing 快 1.7 倍,在光线追踪中的运行速度高达 2 倍。

▲2022年新的 NVIDIA Ada Lovelace GPU 架构以数学家 Ada Lovelace 命名,他被认为是世界上第一位计算机程序员,因为使用了 TSMC 5nm 4N工艺制造,其构架规模远远超过了 Turing 和 Ampere GPU。几何复杂性的增加和照明的创新使图形看起来比以往任何时候都更加逼真。 与之前的 NVIDIA Ampere GPU 架构相比,Ada 在光栅化游戏中的速度高达 2 倍,在光线追踪游戏中的速度高达 4 倍。

Ada 图形架构预示着第三代 NVIDIA RTX 技术,通过利用实时光线追踪来提高游戏视觉效果的真实性,而无需绘制纯光线追踪 3D 图形所需的大量计算能力。这是通过将传统的光栅图形与光线追踪元素(例如反射、照明和全局照明等)混合来完成的。第 3 代 RTX 预示着新的更高 IPC “Ada” CUDA 核心、第 3 代 RT 核心、第 4 代 Tensor 核心和新的光流处理器(Optical Flow Processor),该组件在不涉及 GPU 主图形的情况下在生成新帧中起关键作用渲染管道。

NVIDIA Ada GPU 完整架构

▲完整的 AD102 GPU 包括 12 个图形处理集群 (GPC)、72 个纹理处理集群 (TPC)、144 个流处理器 (SM) 和一个 384 位显存接口以及12 个 32 位显存控制器。此外还包括 288 个 FP64 内核(每个 SM 2 个),上图中未显示。 FP64 TFLOP 率是 FP32 操作的 TFLOP 率的 1/64。包含少量的 FP64 内核以确保任何具有 FP64 代码的程序都能正确运行,其中还包括FP64 Tensor Core 代码。

完整的 AD102 GPU 使用了12个GPC单元构成,每个GPC的SM为12个共144个SM,所以可以计算出:

144(SM)*128(CUDA内核)=18432(CUDA内核)

144(SM)*1(RT核心)=144(RT核心)

144(SM)*4(Tensor核心)=576(Tensor核心)

144(SM)*4(TMUs纹理单元)=576(TMUs纹理单元)

12(GPC)*16(ROPs光栅单元)=192(ROPs光栅单元)

12(显存控制器)*32bit(位宽)=384bit(显存位宽)

和上一代第一款首发产品RTX 3090一样,RTX 4090不是完整版核心,而是配备了这一代的第一款 Ada Lovelace GPU: AD102-300-A1。

NVIDIA AD102-300-A1 GPU架构

▲尽管这张旗舰卡中使用的芯片并不是完整的核心,AD102依然拥有128 个流式多处理器 (SM) ,包含16384 个 CUDA 内核。

RTX 4090的AD102-300-A1核心

▲RTX 4090使用了11个GPC单元构成,9个GPC的SM为12个,2个GPC的SM为10个,共144个SM。所以可以计算出:

128(SM)*128(CUDA内核)=16384(CUDA内核)

128(SM)*1(RT核心)=128(RT核心)

128(SM)*4(Tensor核心)=512(Tensor核心)

128(SM)*4(TMUs纹理单元)=512(TMUs纹理单元)

11(GPC)*16(ROPs光栅单元)=176(ROPs光栅单元)

12(显存控制器)*32bit(位宽)=384bit(显存位宽)

Ada的图形处理集群 (GPC)

▲Ada的图形处理集群 (GPC)包含1个光栅引擎,6 个 TPC、12 个 SM 和 16 个 ROP。

GPC 是所有 AD10x Ada 系列 GPU 中占主导地位的高级硬件模块,所有关键图形处理单元都位于 GPC 中。每个 GPC 包括一个专用的光栅引擎、两个光栅操作 (ROP) 分区,每个分区包含八个单独的 ROP 单元和六个 TPC。每个 TPC 包括一个 PolyMorph 引擎和两个 SM。

AD10x GPU 中的每个 SM 包含 128 个 CUDA 核心、1个 Ada 第三代 RT 核心、4个 Ada 第四代Tensor 核心、四个纹理单元、一个 256 KB 寄存器和 128 KB 的 L1/共享缓存。

Ampere 架构的第2代RT Core

▲Ampere 架构的第2代RT Core图中,BVH 遍历由 Box Intersection Engine (左侧)加速,光线-三角形相交测试由 Box Intersection Engine 加速 三角形相交引擎 (右侧)。通过两者为光线追踪功能提供专用资源,从而解放SM单元,使其腾出时间来执行其他像素、顶点和计算着色任务。在使用综合基准测试以及真实游戏和应用程序进行测试时,Turing 和 Ampere GPU 中的 RT Core 已被证明是迄今为止处理 RT 工作负载的性能最高的引擎。

Ada 架构的第3代RT Core

▲Ada 架构的第3代RT Core,在继承了第2代的两个功能单元之外,新增了Opacity Micromap Engine (左下)和 Displaced Micro-Mesh Engine (右下)这两个专用单元。

叶子或火焰等复杂形状通常使用纹理中的 alpha 通道来表示透明度和不透明度的级别

▲在 Ada 的 RT Core 之前,开发人员可以通过将某些内容标记为不透明来将它们合并到光线追踪场景中。当叶子被光线击中时,将调用着色器来确定如何处理相交,即使光线只是简单地表征为命中或未命中。这会产生很大的计算资源开销。具体来说,当光线扭曲投射到非透明对象时,单个光线查询可能需要多次着色器调用才能解析,而其他光线会立即终止。结果是资源开销大以及效率低下。

为了有效处理此类内容,NVIDIA 工程师在 Ada 的 RT Core 中添加了 Opacity Micromap Engine。不透明微图是微三角形的虚拟网格,每个微三角形都具有不透明状态,RT Core 使用该状态直接解析与非透明三角形的光线交叉点。具体而言,交叉点的重心坐标用于处理相应的微三角形的不透明度状态。不透明状态可以是不透明的、透明的或未知的。如果不透明,则记录并返回命中。如果透明,则忽略交叉点并继续搜索交叉点。如果未知,则将控制权返回给 SM,调用着色器(“anyhit”)以编程方式解决交集。

新的Opacity Micromap Engine处理不透明度蒙版时,将其划分为规则的三角形网格,用于报告光线/三角形交点的重心坐标。这些网格的大小可以是1到1600万个微三角形,每个微三角形有1-2bit。

▲考虑使用两个三角形和一个 alpha 纹理描述的详细枫叶(参见子图 (a))。 不透明蒙版应用于由 2 个三角形组成的枫叶。Opacity Micromap Engine评估叶子并确定哪些部分是不透明的、透明的或未知的,对应叶子的不透明区域,最后红色和蓝色对应混合不透明区域(未知)。在上面的示例中,Opacity Micromap Engine将微型三角形的 30 个标记为透明,41 个标记为不透明,57 个标记为未知。这意味着超过一半的叶子被完全表征,并且超过一半的与这些三角形相交的光线要么错过了叶子,要么明确地与叶子的内部相交。结果是,Ada RT Core 无需调用任何着色器代码即可完全表征这些光线,同时保留原始 Alpha 纹理的完整分辨率和保真度。不过当处于未知状态时,GPU会将控制权返回给SM着色器进行解析。

▲与 Ampere 相比,Ada 的 Opacity Micromap Engine 与不透明蒙版减少了SM着色器工作负载,通常投射在 alpha通道中的测试几何体上的阴影光线会看到最大的收益。 Ada 的不透明蒙版支持可以显著增加场景中详细几何图形的数量和保真度,从而提高真实感。借助这项新功能,它将 alpha 遍历速度提高了 2 倍。开发人员可以非常快速地将不透明度值分配给不规则形状的物体(如蕨类植物和栅栏)或半透明的物品(如火焰或烟雾),从而允许 Ada RT Core 直接对对 alpha 测试纹理进行光线追踪,而不是依赖 GPU 的 SM着色器单元。大幅提升对 alpha 测试纹理进行光线追踪的速度。

▲集成到 Ada RT Core 中的第2个新硬件单元是 Displaced Micro-Mesh Engine,旨在减少处理具有高水平几何细节的复杂对象时传统上所需的 BVH 构建时间和存储要求。有了这个新功能,NVIDIA开发了一种新的位移微网格原语来进行光线追踪。 当需要额外的几何细节时,Displaced Micro-Mesh Engine可以根据需要动态生成额外的微三角形。与传统渲染这些复杂对象相比,Displaced Micro-Mesh Engine将 BVH 构建时间缩短了 10 倍,同时将 BVH 存储需求降低了 20 倍。

Ada 流处理器 (SM)

▲与之前的Ampere一样,Ada SM 分为四个分区,每个分区包含一个 64 KB 寄存器、一个 L0 指令缓存、一个 warp 调度程序、一个调度单元,16 个专门用于处理 FP32 操作的 CUDA 内核(每个时钟最多 16 个 FP32 操作),16 个可以处理 FP32 或 INT32 操作的 CUDA 内核(每个时钟 16 个 FP32 操作或每个时钟 16 个 INT32 操作),一个 Ada 第4代Tensor 核心、四个加载/存储单元和一个执行先验和图形插值指令的特殊功能单元 (SFU)。

Ada SM 包含 128 KB 的 1 级缓存。该缓存采用统一架构,可根据工作负载配置为 L1 数据缓存或共享内存。完整的AD102 GPU 包含 18432 KB 的 L1 缓存,而Ampere构架中完整的GA102 仅有 10752 KB。

与 Ampere 相比,Ada 的 2 级缓存进行了彻底改造。 AD102 配备了 98304 KB 的二级缓存,比 GA102 中的 6144 KB 提高了 16 倍。这会让所有应用程序都受益,而诸如光线追踪之类的复杂操作最为受益。

▲Ada GPU升级的第4代Tensor 核心为现有 FP16、BF16、TF32 和 INT8 格式提供双倍的吞吐量,其第4代Tensor 核心引入了对新 FP8 的支持。与 FP16 相比,FP8 的数据存储需求减半,吞吐量翻倍。借助新的 FP8 格式,GeForce RTX 4090 可为 AI 推理工作负载提供 1.3 PetaFLOPS 的性能。

▲NVIDIA DLSS 3 是 AI 驱动图形领域的革命性突破,可大幅提升性能。DLSS 3 由 GeForce RTX 40 系列 GPU 所搭载的全新第四代 Tensor Core 和光流加速器提供支持,可利用 AI 创造更多高质量帧。

▲基于 Ada 架构的全新显卡配备了支持 AV1 编码的全新第八代 NVIDIA 编码器 (NVENC),可为主播、广播爱好者和视频通话用户带来更多新的尝试和体验。该技术的效率比 H.264 高 40%,这有助于主播在保持直播推流比特率不变的情况下,将画面分辨率从 1080p 提高到 1440p,且画质依然稳定。

开箱

▲ PNY是一家美商公司,中文名:必恩威,成立于 1985 年,是致力于消费和商业级电子制造的全球技术领导者。PNY 拥有 30 多年为全球消费者、B2B 和 OEM 提供服务的经验。产品在北美、拉丁美洲、欧洲和亚洲的 50 多个国家和地区设有 20 家公司,在全球主要零售店、电子零售店、批发商和分销商处销售。产品组合包括种类繁多的 USB 闪存驱动器、闪存卡、PC 内存升级、固态驱动器、NVIDIA? 显卡和 HP 闪存产品。凭借面向移动、数字成像、计算和游戏解决方案的产品。

其实我对PNY的了解,还是因为在北美的bestbuy海淘Quadro专业显卡,PNY在北美是Quadro和Tesla的独家代理商,这个定位非常类似中国的丽台,2020年开始销售的Geforce RTX 3000系列消费级显示卡基本和国内丽台销售的外形是非常类似的,因为都是Palit代工出品,2021年底开始独立研发生产显示卡,那么RTX 4000就是PNY独立研发生产显示卡的开山之作。

▲而XLR8 Gaming系列就是PNY所规划的游戏系列产品,当然PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB? TF就是PNY目前出品的消费级旗舰显卡。

▲包装正面

▲包装背面

▲包装侧面

▲同比其他品牌的RTX3090包装盒,PNY的包装体积要小不少

▲开箱

▲原封本体

▲原封标签

▲这是静电袋的标签,和盒子上的标签以及显卡上的标签,配合成三码合一。其中D43724是PNY独有的工厂码。

▲附件全家福

▲1组 16-Pin 转 四组 8-Pin的供电排线,官方称之为PCIe5 12VHPWR Adapter。

▲这种带有NVIDIA标的4 x 8P转12VHPWR的线其实我不建议使用,因为这种线材全部是由NVIDIA配送的套料,每一家都是一样的,因为前期有报道NVIDIA这批转接线有严重的焊接方式的质量问题,容易导致显卡与转接线的12VHPWR位烧熔,所以这里我极力建议大家不要使用这条线,具体分析我会放在文章结尾部分。

▲附赠的一组显卡支撑架,官方命名为:VGA Support Kits,来自联力代工制造。

▲安装方式如上图

▲显卡正面使用了三个100mm双滚珠环型风扇

▲与传统90mm风扇相比增加了40%以上的风量,风压提高55%。

▲显卡背面使用了冲压成型铝制金属背板

▲显卡背板的一块做了镂空设计,方便风扇将热风吹至机箱内部。

▲显卡顶部设计了一组XLR8的ARGB灯效

▲由于这次的RTX 4090各家都采用了短PCB设计,所以16PIN供电设计在短PCB的一侧上方,覆盖上全长度的散热器,就会显得外接供电貌似设计在显卡的中间部分。

▲显卡底部

▲显卡的厚度是71.1mm,标准的3.5槽厚度。接口部分为3x DisplayPort 1.4, 1x HDMI 2.1

▲显卡前部可以看出使用了4热管穿Fin。

▲这张显卡的体积控制在331.8 x 136.8 x 71.1mm,长度比公版的创始者310mm略长,但是短于其他AIC的同型号产品。

▲显卡体积的兼容性对比

拆解

▲我直接对这张显卡进行了拆解

▲冲压全铝背板

▲散热器本体

▲散热使用了8根热管

▲接触底座使用了Vapor-Chamber真空腔均热板设计。

▲PCB正面

▲PCB背面

PNY的这张卡的PCB是公版PG139-SKU330

▲这张显卡全部的MOSFET使用都是OnSemi NCP302150 DrMOS,分别用于GPU和显存供电;额定电流均为50A 。

▲GPU核心的PMW芯片是uPI uP9512U 。

▲该控制器管理14 相GPU核心供电。

▲显存供电PMW芯片是UPI uP9512R

▲该控制器管理3相显存供电。

▲GDDR6X 内存芯片由美光制造,型号为 D8BZC,解码为 MT61K512M32KPA-21:U。它们被指定以 1313 MHz(21 Gbps 有效)运行。

▲GPU核心是AD102-300-A1

▲HOLTEK HT32F52352芯片控制灯效以及风扇转速。

▲GSTEK GS9216是一颗12A降压芯片。

▲UPI US5650Q是一颗四通道电压电流监控芯片,监测PCB上四颗SHUNT RESISTOR,2颗R002和1颗R005在12VHWPR附近, 1颗R005在金手指附近。

这个供电的思路看下来,感觉PNY的设计比较关注默认效能稳定性,没有大量的堆料供应超频需求。设计方案和Palit类似。

既然都是PG139-SU330公版参考设计,为什么各家的PCB有明显的不同,包括电源的相数以及供电的方案。其实来自igor'sLAB的主编Igor Wallossek早就发表过他的意见,在Ada设计之初,NVIDIA考虑的仍然是使用SAMSUNG 8N制程,所以给与板卡厂商的散热以及电路设计参考指南都是以600W散热规模以及供电规模呈现的,因为整个产品的规划确实需要几个月时间,但是AMD的NAVI 31确定下来使用TSMC 5-6nm混合工艺制造后,NVIDIA估计是不淡定了,立即改变Ada的制程,直接转投TSMC 5nm改良版4N,确实TSMC 4N面对AMD确定的TSMC 5-6nm混合制程是存在优势的,同时由于一些市场战略问题,NVIDIA并没有向板卡厂商透露工艺变更事宜,直到AD102出来,NVIDIA通知板卡厂商RTX 4090的TGP和散热设计为450W才得到确认。

ASUS ROG Strix GeForce RTX 4090 OC

▲这时候板卡厂商更换方案已经来不及了,于是就用600W的电路设计 散热方案直接推出了RTX 4090的产品,可以理解成PG139-SU330公版参考设计的600W加强版。

NVIDIA Geforce RTX 4090 Founders Edition

▲其实对于NVIDIA自己的FE版本也是早早设计好了600W的电路PCB,就是PG139-SU330公版的600W变种加强版,但是上市时候使用了450W的散热模块,原先计划的三风扇FE散热方案可以移交到RTX 4090Ti上去了。

Palit GeForce RTX 4090 GameRock OC

▲在投片TSMC 4N之后NVIDIA在市场方面向板卡厂商出售方案的时候就完全转向了450W的PG139-SU330公版设计,包括供电套料都一并提供,并极力要求厂商这样去做,原因就是在面对未来的NAVI-31的时候,NVIDIA希望表现的是一个比对方优秀的能耗比,而不是一个多烧了33%TGP功耗性能多出5%的产品,诸如Palit抑或PNY就是属于后期被NVIDIA规划为450W产品线的主推厂商。

所以这一代产品,PG139-SU330公版参考设计是600W版本还是450W版本,完全取决于NVIDIA介入生产设计的时间线,在转投TSMC 4N之前,都是600W方案,在投了TSMC 4N之后都是450W方案。

那么是不是600W版本的PCB以及散热设计就会强很多呢?这取决于板卡厂商的惯性思维,因为SAMSUNG 8N制程Ampere的GPU核心提供给厂商的时候是存在分级的,分为30%的BIN0,60%的BIN1,10%的BIN2。这是由三星的良率问题决定,所以产生了BIN2这样的Sorting GPU核心,优秀的核心会提供给核心AIC装备,比如御三家这些,所以御三家的旗舰版会比下游厂家的核心在同样电压下BOOST到更高更夸张的频率,这让超公版PCB和散热设计变得非常有价值。但是TSMC 4N却不提供所谓的Sorting GPU核心,这次只有BIN1,没有BIN0和BIN2,每一家拿到的核心体制都基本一致,没有特别优秀的也没有特别差的,这就让想做超公版的厂家特别头疼,因此,大家看评测所了解的600W满载的效能也并没有特别多的效能提升,能耗比完全没有优势。

测试平台

电源适配

▲为了尽可能稳定有效的完成测试任务,电源这次使用了Seasonic Prime TX-1600

▲Seasonic Prime TX-1600包装

▲80PLUS钛金认证,电源原生支持两个PCIe5 12VHPWR供电接口。

▲开箱

▲附件全家福

▲线材包1

▲线材包2

▲PCIe5 12VHPWR供电线

▲PCIe5 12VHPWR供电接口部分

▲海韵的PCIe5 12VHPWR供电线直接定义为600W输出。

▲电源本体背面

▲电源本体正面

▲电源本体侧面

▲电源模组接口

▲45°视角

京东

Seasonic 海韵 PRIME-TX 钛金牌(94%) 全模组ATX电源 电脑电源 1600W3599元实时价格8小时前已更新去购买

测试平台

【CPU】: AMD Ryzen 7 5800X

【主板】: ASRock X570S PG Riptide

【内存】: Lexar THOR DDR4-3600 16GB X2(White)

【硬盘】: LEXAR NM800 1TB M.2 PCIe Gen 4X4 SSD

【显卡】: PNY RTX 4090 OC XLR8 Gaming Verto

【散热】: Thermalright Forzen Magic 240 ARGB

【机箱】: SilverStone RM42-502

【电源】: Seasonic TX-1600

【系统】: Windows 11 x64 WorkStation 21H2

【系统】: Ubuntu 18.04.6 x64

▲视角1

▲点亮的光效

基本情况

▲GPUZ默认参数

▲闲时,使用HWINFO对GPU功耗、GPU热点温度、GPU温度以及显存结温进行了监控,可以发现:

功耗=14.834W,

GPU热点温度=45.8°C

GPU温度=36.9°C

显存结温=40°C

▲我们进行3DMARK Speed Way的压力测试,本测试一共20轮,我们在第17轮开始统计,榨出当前最高的TGP和温度并使用HWinfo监控。

▲运行3DMARK Speed Way压力测试是因为要一直处于GPU 100%满载状态:

功耗=443.946W,

GPU热点温度=79.9°C

GPU温度=70.3°C

显存结温=80°C

这基本是目前现有手段能榨出的最大表现力。

▲回到HWINFO监控页面去复盘,了解一下这张卡的一些特性:

关于GPU功耗,最低9.133W,最高445.763W,基本说明这张卡的功耗区间,看起来被锁450W TGP。

GPU频率在待机时候稳定在210MHz,满载时候达到2820MHz。

显存频率在待机时候稳定在101.3MHz,满载时候达到2625.5MHz。

GPU过热限制=84°C,说明整个显卡的散热设计是为了把GPU温度压制在84°C以内。

GPU风扇1是三颗风扇中的左右两颗并联,待机基本不转,测试时候转速最大达到1713RPM,但这只是风扇全速转速的49%。

GPU风扇2是三颗风扇中的中间一颗,在待机时候基本不转,测试时候转速最大达到1721RPM,但这只是风扇全速转速的49%。

▲想让风扇全速,使用PNY的VelocityX软件就可以做到。

▲将风扇这里的自动关闭,转速拉到100%即可达到最大转速3086RPM。

下面看一下超频效果,

▲超频之前跑了一个3DMARK TIME SPY EXTREME测试,GPU分数19472

▲随后我直接将GPU核心加了200MHz,

▲进行3DMARK TIME SPY EXTREME测试,GPU分数19912

▲HWINFO监控数据的GPU功耗依然牢牢被锁在450W以内。

▲比较一下两个测试,差异主要是CPU核心频率boost从2790MHz越迁到2985MHz,实际功耗没有增加,温度也没有增加。所以也不用动辄对boost核心频率达到3000MHz的600W超级公版垂涎三尺,其实哪怕450W TGP的RTX 4090往上随便拉个200-250核心频率就随意可以达到3000MHz的boost核心频率。

▲这说明这次的AD102-300-A1核心在不增加功耗的情况下是留有一定余量的性能可以压榨的,但是空间不大,200-250MHz,一旦超过这个范围,就需要BIOS破除Maximum Power Limit 450W的限制。

▲关于RGB特效,VelocityX提供了多种选择,下面展示几张我拍摄的灯光效果。

视频

▲基本情况部分测试到此结束。

对比测试

▲从左往右,依次是PNY RTX 4090 Verto、影驰RTX 3090 Ti星耀以及七彩虹RTX 3090火神

▲三款产品同比

▲厚度上PNY RTX 4090略厚,长度和影驰RTX 3090 Ti星耀基本一致。

DLSS3 测试

▲NVIDIA GeForce RTX 40系列显卡的一大变化就是新增了对DLSS 3技术的支持,DLSS 3在前代DLSS2的基础上,通过(OFA)光流加速推断下一帧生成的目标画面,使传统CUDA算力得到极大的节省,让GPU在应对高分辨率实时渲染游戏时可以更加游刃有余,与不使用DLSS相比,理论上游戏性能的提升可高达4倍。

▲DLSS 3由于Frame Generation的加入,它的理论帧数性能能达到原先DLSS 2的双倍,这使得GeForce RTX 40系显卡能够以更小的压力用4K分辨率高画质运行所有支持DLSS 3的游戏,同时距离流畅体验8K游戏也更进一步。

▲目前有超过35款游戏和应用宣布即将支持DLSS3。

DLSS3 测试-Cyberpunk 2077

《Cyberpunk 2077》DLSS3设置

▲DLSS 3的相关测试使用《Cyberpunk 2077》完成,虽然选择游戏自带的BENCHMARK进行测试,但由于DLSS 3应用了新技术,当下游戏自带的帧数记录功能并不能精准地记录下开启DLSS 3之后的游戏帧数。因此在DLSS 3游戏中,虽然使用游戏自带的BENCHMARK进行测试,但实际帧数以NVIDIA的FrameView工具为准。

▲开启光追测试,我们可以发现,开启DLSS 2之后的游戏性能帧数已经相当可观,然而当开启DLSS 3之后,游戏性能在DLSS 2的基础上又提升了一大截,与关闭DLSS相比,在4K分辨率下开启DLSS 3质量可以带来170%的性能提升,2K分辨率下可以带来145%的性能提升。

DLSS对比测试

DLSS对比测试-FAR CRY 6

DLSS对比测试-Shadow of the Tomb Raider

生产力测试

生产力测试环节使用了Puget Systems的三个测试脚本进行测试:

生产力测试-Adobe After Effects 22.4

▲本测试以Adobe After Effects 22.4为测试载体

▲以PugetBench for After Effects 0.95.2为工具基准进行测试

本测试涉及到了许多不同的项目,其中包括一个专用的“GPU 压力”测试,该测试旨在往 GPU 上施加尽可能多的负载,同时仍保持在某人在现实世界中可能实际执行的范围内。 在 After Effects 等应用程序中查看 GPU 性能通常是检查 GPU 承受重负载的极端情况的情况,因此通过每个 GPU 的 After Effects 基准测试中看到的整体性能开始,GPU 分数是根据“GPU Stress”组合的性能计算得出的,该组合旨在将尽可能多的负载置于 GPU 上,同时最大限度地减少 CPU 作为瓶颈,可以很好地显示 After Effects 中不同 GPU 之间的最大性能增量。

GPU分数的基准是以NVIDIA GeForce RTX 3080 10GB为100分参考基准。

NVIDIA GeForce RTX 3080 10GB

GPU分数:100

▲测试数据汇总

生产力测试-Adobe Premiere Pro 22.6.1

▲本测试以Adobe Premiere Pro 222.6.1为测试载体

▲以PugetBench for Premiere Pro 0.95.3为工具基准进行测试。

这个基准测试通过4K和8K分辨率以及29.97和59.94 FPS的各种编解码器来研究实时回放和导出性能。对于GPU测试使用专用的“重载GPU效果”单独向GPU施加尽量多的压力,使其超出普通Premiere Pro用户的工作范围来进行测试。

测试的剪辑素材 (59.94 FPS)素材分辨率以及编码器包含:4K H.264 150mbps 8-bit (59.94FPS)、4K ProRes 422、4K RED、8K RED、8K H.265 100Mbps。

对于每种类型的测试素材,进行四种测试:

标准 - 两个 59.94FPS 片段串联,应用 Lumetri Color 效果

2x Forward - 四个 59.94FPS 剪辑,在 119.88FPS 序列中将 Lumetri 颜色设置为 200% 速度,以模拟以 2 倍速度播放时的性能。

4x Forward - 8 个 59.94FPS 剪辑,在 239.76FPS 序列中将 Lumetri 颜色设置为 400% 的速度,以模拟以 4 倍速度播放时的性能。

MultiCam - 在多机位序列中跨四六个轨道的多个剪辑。在“多相机”显示模式下测试播放。

这些测试都用于全回放分辨率的实时回放性能测试。

标准测试还使用“Youtube 2160p 4K 超高清”预设(H.264、4K、40mbps)以及导出到 4K ProRes 422HQ 8-bpc 来测试其导出性能。

关于GPU有一个“Heavy GPU Effects”测试,使用:

串联的 Twp ProRes 422 剪辑,每个剪辑之间有交叉溶解

高级效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur 和 VR Digital Glitch。

极致效果:Lumetri Color、Ultra Key、Sharpen、Gaussian Blur、Basic 3D、Directional Blur、VR Digital Glitch 和 VR De-Noise。

通过导出到 ProRes 422HQ 来衡量性能。

GPU 分数基准是以NVIDIA GeForce RTX 3080 10GB为100分参考基准:

NVIDIA GeForce RTX 3080 10GB

GPU分数:100

▲测试数据汇总

生产力测试-DaVinci Resolve Studio 18.0.2

▲本测试以BlackMagic DaVinci Resolve Studio 18.0.2为测试载体,以PugetBench for DaVinci Resolve 0.92.3为工具基准进行测试。

本基准测试主要使用各种编解码器以 4K 和 8K(仅限扩展预设)分辨率、OpenFX 以及 Fusion 中的性能进行渲染。

测试的剪辑素材 (59.94 FPS)素材溯源自以下两家自媒体提供的样片:包含以下分辨率和编解码器:

4K H.264 150mbps 8-bit、4K ProRes 422、4K RED、8K RED以及8K H.265 100mbps

GPU 效果部分侧重于 OpenFX 和降噪,包含以下效果:

Temporal NR x3 - 2 Frames Better

Temporal NR - 2 Frames Better

Film Grain

Spatial NR - Better

Lens Blur x5

Lens Flare

Optical Flow - 50% Enhanced Better

Face Refinement

▲测试数据汇总

最后需要说明的是,本次测试的剪辑素材来自以下两家自媒体:

▲4K和8K RED剪辑视频来自老莱的工作室,这些剪辑也已转码以创建H.265和ProRes 422剪辑。Linus Media Group是老莱的公司,在YouTube上提供了流行的 LinusTips和 TechLinked频道。

▲Neil Purcell是伦敦著名的照明摄影师,在广播电视领域拥有超过25年的经验。从事各种各样的作品;从戏剧到木偶,现场新闻和事实,儿童节目,灯光娱乐,真人秀,外部广播,重大体育赛事,音乐演唱会,流行视频,企业电影和商业广告。图中Neil Purcell(灯光摄影师/摄影操作员)正在以他的松下 GH5 拍摄 4K H.264 素材。本次测试使用的4K H.264素材来源于他的剪辑作品。

深度学习

RTX 4090 具有576个第4代Tensor核心 ,RTX 3090 Ti 具有336个第3代Tensor核心,RTX 3090 具有328个第3代Tensor核心,理论上RTX 4090的Tensor核心不仅有数量上的优势而且有迭代的优势。这对深度学习来说是个非常大的利好。不过RTX 4090实在太新了可能需要点时间才能让深度学习的周边支持跟上,正好CUDA Toolkit 11.8赶着发布了,所以直接使用了NVIDIA的NGC 容器系统进行测试。

▲测试系统

Ubuntu 22.04 Linux

NVIDIA Enroot 3.4

来自NVIDIA NGC 的容器化应用程序

TensorFlow 1.15.5 ML/AI 框架标签:nvcr.io/nvidia/tensorflow:22.09-tf1-py3

PyTorch 1.13.0a0 ML/AI 框架标签:nvcr.io/nvidia/pytorch:22.09-py3

深度学习-TensorFlow ResNet50

▲ TensorFlow 1.15.5版本是 NVIDIA 维护的 ,能提供更好的性能。基准是训练 100 Step的 ResNet 50 卷积神经网络 (CNN)。结果是以每秒处理的图象数来决定。精度可选择FP32 和 FP16 。每秒处理的图象数越多说明性能越好。

命令行:

CUDA_VISIBLE_DEVICES=0 python resnet.py --layers=50 --batch_size=128 --precision=fp16
CUDA_VISIBLE_DEVICES=0 python resnet.py --layers=50 --batch_size=128 --precision=fp32

▲测试数据汇总

深度学习-PyTorch Transformer

▲基准测试使用 PyTorch 1.13 在带有 CUDA 的 Wikitext-2 的神经网络上对Transformer 模型进行 6 epoch 的训练,完成时间越短,说明性能越好。

命令行:

time CUDA_VISIBLE_DEVICES=0 python main.py --cuda --epochs 6 --model Transformer --lr 5 --batch_size 640

▲测试数据汇总

值得注意的是PyTorch和TensorFlow的迭代支持很快,一些优化一定会持续跟进Ada构架进行优化的,所以预留了未来可期许的深度学习性能提升空间。

硬件兼容性

其实我对测试平台不太追新,最主要的问题就是怕不兼容,结果还是遇到了不兼容的情况,最后得到了解决:

测试平台我选用的是ASRock X570S PG Riptide主板以及AMD Ryzen 7 5800X,没有选用INTEL 12和13代平台以及AMD Ryzen 7000系列平台最主要的原因是因为有部分的测试在Ubuntu 18.04.6 LTS下进去,对于Linux平台而言,支持如上新平台发挥效能需要更新内核到5.17-5.22以上,存在一些未知且不可预测的可能性,求稳所以使用了成熟的平台。

▲ASRock X570S PG Riptide包装

▲ASRock X570S PG Riptide附件一览

▲ASRock X570S PG Riptide本体

▲安装AMD Ryzen 7 5800X,散热器选用的是Thermalright Forzen Magic 240 ARGB。

▲ Thermalright Forzen Magic 240 ARGB包装

▲Thermalright Forzen Magic 240 ARGB本体1

▲Thermalright Forzen Magic 240 ARGB本体2

▲SSD选择的比较稳健的LEXAR NM800 1TB M.2 PCIe Gen 4X4 ,为了提高兼容性选用了主流的IG5236主控 美光B47R NAND。

▲SSD本体正面

▲SSD本体背面

▲安装设备在M.2-1 CPU PCIe Lane槽位。

▲CrystalDiskMark 8.0.24的持续读写使用QD32T1的默认设置,随机读写使用QD32T16的条件,可以非常接近官标所标识的UP TO的最大值:

Sequential Read [持续读取](Q=32,T=1) : 7459 MB/s 超越官标

Sequential Write [持续写入](Q=32,T=1) : 5738 MB/s 接近官标

Random Read 4KiB [4K随机读取](Q=32,T=16) : 399K IOPS 接近官标

Random Write 4KiB[4K随机写入] (Q=32,T=16) : 1013K IOPS 远超官标

评估了下,基本可以认为达到了官标的性能。

内存选择的是Lexar THOR DDR4-3600 16GB X2(White)

▲DRAM本体正面

▲DRAM摆拍2

▲上机

▲安装内存在DIMM 2和DIMM 4。

▲上机用台风看了下,美光F-Die,颗粒编号D8CJV,美光里的内部编号为MT40A2G8SA-062E:F,原生DDR4-3200的颗粒,SPD里有DDR4-3600 18-22-22-42 1.35V的XMP参数以及DDR4-3200 22-22-22-52 1.2V的JEDEC参数。

▲机箱选用的是一款工作站机箱SilverStone RM42-502

▲这是一款可以通过导轨直接上机柜的RACK机箱

▲支持240-280水冷。打开前门可以看到兼容水冷的风扇进风位

▲SilverStone RM42-502的特点是可以通过附件里面的转换件变成塔式工作站机箱

▲SilverStone RM42-502的塔式形态--开门

▲SilverStone RM42-502的塔式形态--关门,前门钥匙是工作站机箱的标配。

▲组装好硬件

问题一

▲第一件事情发现点不亮。。。。。。如图所示显示器无显示,但是机器运行则一切正常。

▲ASRock X570S PG Riptide这种上市一年多的成熟产品竟然必须需要更新2022年10月22日最新2.20版本BIOS才可以支持RTX 4090,所以当发现点不亮RTX 4090的时候不用慌,先去用别的显卡点亮系统升级一个最新的BIOS。

问题二

▲第二个问题,要清楚SilverStone RM42-502是一个支持ETAX双路主板的工作站服务器机箱,不仅宽大且做工精良。

▲规格是430mm (W) x 176mm (H) x 468mm (D),宽度是430mm。

▲就这个规格的机箱,在安装了前置240水冷之后,塞进去331mm长度的PNY GeForce RTX 4090 24GB OC XLR8也已经比较紧凑了,机箱在不安装前置水冷情况下允许安装的显卡最大长度为426mm,一般普通水冷排厚度为27mm,12025规格水冷风扇厚度为25mm,安装完水冷仅剩下374mm的长度空间,依然足够装下目前在售的任意品牌型号的RTX 4090!如果你正在为找一款适合RTX 4090的做工精良的工作站机箱而烦恼,如果你能够接受无ARGB的机箱内环境的话,SilverStone RM42-502绝对是您正确的选择!

但是市面上大多数的ATX机箱显卡限制长度都在350mm以内,这意味着,如果你购买RTX 4090显示卡,显卡的长度决定了你是否需要更换一个更大的机箱。所以这时候长度更短的RTX 4090的机箱兼容适配性当然是更强的。

问题三

▲第三个问题,如果使用了Seasonic TX-1600原配的12VHPWR线材进行安装,如果发生过度弯曲,还是有可能发生以下情况:

▲因为过度弯曲发生的线材接头脱落情况,

▲PCI-SIG组织早就通报了因为12VHPWR的线材因为太硬太粗的原因在过度弯曲的时候造成接头松动甚至脱落,和显卡12VHPWR接头部分发生电阻值过高,发热严重最终造成12VHPWR烧毁的问题。

现在问题来了,机箱的能盖上侧板能容纳的最大显卡高度为156mm,而显卡本身的高度为136.8mm,如果要盖上侧板,就必须在19mm的空间内进行12VHPWR线材弯折,这其实还是有风险。对于海韵电源而言,其实还有终极解决方案来解决这个问题。

▲海韵为解决弯曲问题出品了一款新的12VHPWR模组线,符合PCIe 5.0供电标准,兼容ATX 3.0,使用16AWG高规格线径,耐高电流合金铜端子,可支持高达600W功率输出。电源直连显卡供电,可降低转接带来的故障风险,为玩家带来更安全稳定的供电方案。另外,该模组线采用了新的模组线材,压纹工艺如编织质感,比一般的模组线更柔软,更有利于玩家走线。

▲海韵这款12VHPWR模组线适配于其PRIME和FOCUS系列850W及以上型号,可选黑色或白色,但与其他品牌并不适配。如果玩家使用的是国行在保的海韵电源,每个电源SN可免费申请一次,得到这款12VHPWR模组线。

▲1000W及以上的海韵电源需提供RTX 40系列显卡的购买凭证,850W及以上的海韵电源需提供RTX 3090 Ti显卡的购买凭证,另外玩家需要提供一张电源与显卡的合照(电源SN清晰可见),默认发黑色,白色需备注。玩家可将相关资料发送到官方邮箱cn.support@seasonic.com免费申请,邮费自理,以顺丰到付寄出。

问题四

▲第四个问题,第一批次NVIDIA配给显卡生产商的1组 16-Pin转4组 8-Pin的供电排线,官方称之为PCIe5 12VHPWR Adapter,存在严重质量问题。igor'sLAB 发表了一项关于 Nvidia 12VHPWR 适配器的研究,不建议使用此适配器!

▲reddit有个帖子专门持续汇报发生的转接线烧毁显卡供电接口事件,且持续更新。到2022年10月30日为止因NVIDIA配送的16-Pin转4组 8-Pin的12VHPWR线材烧毁显卡接口事件为12例,均为TGP大于550W的RTX 4090。目前无法确定NVIDIA要求近期发行的RTX 4090新版TGP功耗锁定为450W是否与此有关。

▲NVIDIA配送的16-Pin转4组 8-Pin的12VHPWR线材总共有 4 根 14AWG 粗线分布在总共 6 个触点上,两条外部引线分别焊接到一个引脚上,中间的两条引线分别焊接到两个引脚上。

▲焊料底座是仅 0.2mm的薄铜底座,每根进线宽度为 2 mm,因此中间连接的每对宽度为4mm。

▲将一根甚至两根14AWG 电线焊接到它上面是活动的,弯曲情况下非常容易造成脱落。

▲目前上市的大多数的RTX 4090都是在600W TGP下运行,在这电流强度下,因为弯曲导致的不稳定且活动的焊接触点引脚电阻值上升,迅速烧毁显示卡以及转接线的12VHPWR接口部分。

▲因为早期的RTX 3090Ti配送的1组12-Pin转3组 8-Pin的供电排线使用了相同的设计,可能是因为450W TGP功耗输入电流较低并未报告烧毁RTX 3090Ti的情况,但是这次有用户害怕使用RTX 4090配送的16-Pin转4组 8-Pin的12VHPWR线材,转而使用RTX 3090Ti配送的12-Pin转3组 8-Pin的12VHPWR线材,一样发生了烧毁情况。目前的报告是两例。顺带说一下PNY GeForce RTX 4090 24GB OC XLR8 Gaming Verto EPIC-X RGB? TF目前是和RTX 3090Ti一样的450W TGP功耗设计。

总结

因为手里没有其他的RTX 4090显示卡,所以同类比测试是无法进行的,本次评测主要对上代的旗舰级显示卡做了明确的性能比对。

基于DLSS3游戏用途的玩家是非常值得升级RTX 4090的,而对于普通DLSS游戏用户而言,需求没有那么强烈,生产力环节诸如Adobe AR PR类的软件而言,升级理由并不充分,而对于达芬奇用户来说就非常值得升级,深度学习方面是绝对值得升级的,但是周边支持的完善可能需要点时间。

截至发文,RTX 4090的价格从首发12999奔着16000去了,京东缺货,天猫缺货,倒不是商家囤货居奇,是因为9成的大厂订单都直送美国了,这就造成中国目前的缺货真空期,自然水涨船高。

至于PNY这张RTX 4090显示卡,性能中规中矩,因为Maximum Power Limit 被锁定在450W,所以在不能动电压的情况下超频所获得性能有限在2-3%附近,其长度适中且不浮夸的散热规模令人印象深刻,因为能保证兼容适配大多数的普通机箱,同时性能也足够压制450W TDP,49%的自动风扇控制可以最大程度保证满载运行时候的静音效果,如果不破解Maximum Power Limit 其实也用不到100%的手动风扇设置。VelocityX软件的使用理念比较简约,简单暴力比较适合快速上手,ARGB的光效加持也起到了画龙点睛的效果。

那么问题来了,这张卡的潜在客户群体在哪里?这张卡适合对稳定度有一定要求,且对机箱电源的兼容适配要求比较高的用户,换句话说,在不想更换更高功率电源和更大规模机箱的前提下,客户有一个850W的电源,一个普通ATX的机箱,如果你要塞进去RTX 4090,除了NVIDIA创始者版本,PNY RTX 4090 OC XLR8 Gaming Verto就是最佳的选择了。当然前提是你需要有一个适合RTX 4090的电源以及弯折不会烧毁的12VHPWR线材。

作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~

排列五1月14日,精准规律图,给你提供简单易懂的规律

老二来给大家分享排列五的规律图和下面的数字定位,希望能给大家带来一定的参考价值。(纯属娱乐游戏模式〉。

这期老二给大家抓出了一些的排列五规律图。(供大家参考)。

精选四定:

千位,1 3 百位,2 7

十位,1 6 个位,2 3

组合:

1212--1213--1262--1263--1712--1713

1762--1763--3212--3213--3262--3263

3712--3713--3762--3763

千位定位--1 3

百位定位--2 7

十位定位--1 6

个位定位--2 3

包码四定:

千:1234678

百:1234567

十:0124678

个:1236789

包码三定:

千:1234678

百:1234567

十:xxxxxxxx

个:1236789

包码二定:49组

千:1234678

百:xxxxxxxx

十:xxxxxxxx

个:1236789

包码二定:36

千:123467

百:xxxxxxx

十:xxxxxxx

个:123678

以上就是老二给予大家提供的排列五1月14日的规律图和数字了。希望能给到大家帮助。

老二每期都会尽力给大家抓出好码。再次希望能和大家一起发财。

以后每天老二会给大家提供排列五的一些规律图和数学定位,希望能带大家一起发财。(以上内容仅供参考)。

任天堂最新财报利润大增 看来离手游还很远

任天堂今天(10月29日)发布了第2季度累计(2014年4~9月期)的连结结算报告。销售额1713亿日元(比去年同期减12.8%)、营业损失2亿日元赤字(去年同期为232亿日元赤字)、经常利润221亿日元(同比12亿日元)、季度纯利润143亿日元(同比6亿日元)。

收入虽然比去年同期减少,但利润却有大幅改善。削减销售成本使得销售的总利润改善,营业赤字大幅度缩小,经常利润、季度纯利润则大幅增加。因为日元比去年同期贬值、营业外部分产生了155亿日元的兑汇收益。

获得这一成绩的原因如下:

3DS平台硬件卖出209万台,软件2330万部。9月在日本发售的《任天堂明星大乱斗3DS》(大乱闘スマッシュブラザーズ for ニンテンドー3DS)卖得非常好,全世界卖出了322万部。海外6月开始发售的《朋友手机 新生活》(トモダチコレクション 新生活)保持了坚挺的销售状况,财政季度内全世界卖出127万部(从首发时累计开始算共卖出312万部)。

Wii U平台硬件卖出112万台,软件940万部,5月在全球发售的《马里奥赛车8》(マリオカート8)销售良好,9月在海外发售的《塞尔达无双》(ゼルダ無双)也很有人气。

但这一财报并未提高全年的预期,2015年3月期的预期中,销售额5900亿日元(比去年增3.2%)、营业利润400亿日元(去年是464亿日元赤字)、经常利润350亿日元(同比暴增475.0%)、年纯利润200亿日元(同比为232亿日元赤字),没有变化。

接下来,Wii U平台上11月时在美国、12月在欧洲和日本《任天堂明星大乱斗 Wii U》即将发售、可以在客厅大家一起玩的两大任天堂作品将会一起参加年末商战,系列手办"amiibo"也会发售。3DS平台年末会在全球发售《口袋妖怪 终极红宝石/始源蓝宝石》,第三方也会有许多有力作品,新3DS LL也已于10月在日本发售,可见今年任天堂是绝不会来做手游了。