发布日期:2025-01-12 18:11 点击次数:195
(原标题:英伟达这颗芯片人妖 中国,惧怕总共东谈主)
若是您但愿不错时时碰头,宽贷标星储藏哦~
源流:本色来自hpcwire,谢谢。
在 2025 年的 CES 举止上,Nvidia 通知与联发科合营拓荒了一款售价 3000 好意思元的新式台式电脑,该电脑搭载了基于 Arm 的全新精简版 Grace CPU 和 Blackwell GPU 超等芯片。新系统名为“Project DIGITS”(不要与 Nvidia 的深度学习 GPU 放哨系统:DIGITS混浊)。该平台为 AI 和 HPC 市集提供了一系列新功能。
Project DIGITS 接受具有 20 个 Arm 中枢的全新 Nvidia GB10 Grace Blackwell 超等芯片,旨在提供“千万亿次”(FP4 精度)的 GPU-AI 盘算性能,用于原型设想、微兼并启动大型 AI 模子。(强制性浮点诠释器可能在这里有所匡助。)
自 G8x 系列显卡发布(2006 年)以来,Nvidia 一直致力于于于提供适用于总共这个词 GPU 系列的 CUDA 器具和库。唐突使用低资本客户显卡进行 CUDA 拓荒有助于创建充满活力的运用门径生态系统。由于高性能 GPU 的资本和稀缺性,DIGITS 神气应该唐突兑现更多基于 LLM 的软件拓荒。与低资本 GPU 一样,在桌面上启动、成就和微调绽开式变压器模子(举例 llama)的智力应该对拓荒东谈主员具有招引力。举例,通过提供 128GB 内存,DIGITS 系统将有助于克服很多低资本浪费级显卡上的 24GB 落幕。
规格不及
新款 GB10 超等芯片接受 Nvidia Blackwell GPU,配备最新一代 CUDA 中枢和第五代 Tensor 中枢,通过 NVLink-C2C 芯片到芯片互连承接到高性能 Nvidia Grace 类 CPU,其中包括20 个节能的 Arm 中枢(十个 Arm Cortex-X925 和十个 Cortex-A725 CPU 中枢)。
固然莫得可用的规格,但 GB10 的 GPU 端被合计提供的性能低于Grace-Blackwell GB200。需要明确的是;GB10 不是分档或激光修剪的GB200。GB200超等芯片有 72 个 Arm Neoverse V2 中枢和两个 B200 Tensor Core GPU。
DIGITS 系统的界说特征是 CPU 和 GPU 之间兼并、一致的内存 128GB(LPDDR5x)。这种内存大小在 GPU 上启动 AI 或 HPC 模子时突破了“GPU 内存阻扰”;举例,80GB Nvidia A100 确现时市集价钱从 18,000 好意思元到 20,000 好意思元不等。有了兼并、一致的内存,CPU 和 GPU 之间的 PCIe 传输也被摒除了。下图中的渲染标明内存量是固定的,用户无法扩张。该图还标明ConnectX 收集(以太网?)、Wifi、蓝牙和 USB 承接可用。
该系统还提供高达 4TB 的 NVMe 存储。在电源方面,Nvidia 提到了圭臬电源插座。莫得特定的电源条目,但尺寸和设想可能会提供一些萍踪。领先,与 Mac mini 系兼并样,小尺寸(见图 2)标明产生的热量一定不会那么高。其次,说明 CES 展厅的图像,莫得电扇透风口或切口。机箱的正面和后面似乎有一种海绵状的材料,不错提供气流,并可能充任总共这个词系统的过滤器。由于散热设想标明功率,功率标明性能,因此 DIGITS 系统可能不是一款为兑现最大性能(和功耗)而调度的尖叫器,而是一款具有优化内存架构的清凉、逍遥、高效的 AI 桌面系统。
图 1:Nvidia 神气 DIGITS 里面渲染(源流:Nvidia)
如上所述,该系统额外小。下图提供了一些键盘和披露器的视角(莫得披露电缆。说明咱们的提醒,其中一些微型系统可能会因电缆分量而从桌面上拉下来。)
图 2:Nvidia 神气 DIGITS 系统在桌面上的放大视图。(源流:Nvidia)
桌面上的东谈主工智能
Nvidia 诠释称,拓荒东谈主员不错启动多达 2000 亿个参数的大型言语模子,以增强 AI 变嫌。此外,使用 Nvidia ConnectX 收集,两台 Project DIGITS AI 超等盘算机不错承接起来,启动多达 4050 亿个参数的模子。借助 Project DIGITS,用户不错使用我方的桌面系统拓荒和启动模子推理,然后在加快云或数据中心基础设施上无缝部署模子。
Nvidia 独创东谈主兼首席推论官黄仁勋示意:“AI 将成为百行万企中每一种运用的主流。借助 Project DIGITS,Grace Blackwell 超等芯片将惠及数百万拓荒者。将 AI 超等盘算机放在每一位数据科学家、AI 接洽东谈主员和学生的桌子上,将使他们唐突参与并塑造 AI 时期。”
国产亚洲精品在线视频香蕉这些系统不适用于放哨,而是设想用于在腹地启动量化的 LLM(减少模子权重的精度大小)。Nvidia 援用的 1 petaFLOP 性能数字适用于 FP4 精度权重(四位,或 16 个可能的数字)很多模子不错在此级别充分启动,但量化不错增多到 FP8、FP16 或更高,以赢得更好的效果,具体取决于模子的大小和可用内存。举例,对 Llama-3-70B 模子使用 FP8 精度权重需要每个参数一个字节或大致 70GB 的内存。将精度减半到 FP4 会将其减少到 35GB 的内存,但增多到 FP32 将需要 140GB,这比 DIGITS 系统提供的内存还要大。
有东谈主用 HPC 集群吗?
可能不为东谈主所知的是,DIGITS 并不是第一款桌边 Nvidia 系统。2024年,GPTshop.ai推出了一款基于 GH200 的桌边系统。HPCwire提供了包括 HPC 基准测试在内的报谈。与 DIGITS 神气不同,GPTshop 系统在桌边机箱中提供了 GH200 Grace-Hopper 超等芯片和 GB200 Grace-Blackwell 超等芯片的沿路功能。性能的进步也伴跟着更高的资本。
将 DIGITS 神气系统用于桌面 HPC 可能是一种好奇羡慕的设施。除了启动更大的 AI 模子除外,集成的 CPU-GPU 全局内存对 HPC 运用门径也额外有益。请计划最近HPCwire 的一篇对于仅在英特尔两颗 Xeon 6 Granite Rapids 措置器(无 GPU)上启动的 CFD 运用门径的故事。说明作家 Moritz Lehmann 博士的说法,模拟的促成身分是他唐突用于模拟的内存量。
相同,很多 HPC 运用门径不得不思方设法绕过常见 PCIe 承接视频卡的小内存域。使用多张卡或 MPI 有助于扩张运用门径,但 HPC 中最有益的身分永恒是更多内存。
天然,需要基准测试来详情 DIGITS 神气是否糟塌适用于桌面 HPC,但还有另一种可能性:“用这些构建一个 Beowulf 集群”。这句话频繁被合计是一个打趣,但对于 DIGITS 神气来说可能更严肃一些。天然,集群是用做事器和(多个)PCEe 承接的 GPU 卡构建的。然而,一个微型、中等功率、糟塌集成的全局内存 CPU-GPU 可能会成为更均衡、更有招引力的集群构建块。还有一个克己:它们如故启动 Linux 并具有内置的 ConnectX 收集。
https://www.hpcwire.com/2025/01/09/nvidias-little-desktop-ai-box-with-big-unified-gpu-cpu-memory/
半导体杰作公众号保举
专注半导体边界更多原创本色
温雅众人半导体产业动向与趋势
*免责声明:本文由作家原创。著作本色系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支撑,若是有任何异议,宽贷联系半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第4004期本色,宽贷温雅。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的本色就点“在看”共享给小伙伴哦