انویدیا Blackwell B200 معرفی شد: قدرتمندترین پردازنده گرافیکی جهان برای هوش مصنوعی
تراشه ضروری H100 AI انویدیا آن را به یک شرکت چند تریلیون دلاری تبدیل کرد، شرکتی که ممکن است ارزش بیشتری نسبت به آلفابت و آمازون داشته باشد و رقبا برای رسیدن به آن تلاش کرده اند. اما شاید انویدیا با پردازنده گرافیکی جدید Blackwell B200 و سوپرتراشه GB200 پیشتازی خود را افزایش دهد.
انویدیا می گوید که پردازنده گرافیکی جدید B200 حداکثر 20 پتافلاپ FP4 اسب بخار را از 208 میلیارد ترانزیستور خود ارائه می دهد. همچنین، میگوید، یک GB200 که دو تا از این پردازندههای گرافیکی را با یک CPU Grace ترکیب میکند، میتواند 30 برابر کارایی بیشتری را برای بارهای کاری استنتاج LLM ارائه دهد در حالی که به طور بالقوه کارآمدتر است. به گفته انویدیا، هزینه و مصرف انرژی را تا 25 برابر» نسبت به H100 کاهش میدهد.
انویدیا ادعا می کند که آموزش یک مدل پارامتری 1.8 تریلیون قبلاً به 8000 پردازنده گرافیکی Hopper و 15 مگاوات قدرت نیاز داشت. امروز، مدیرعامل انویدیا می گوید 2000 پردازنده گرافیکی بلک ول می توانند این کار را انجام دهند در حالی که فقط چهار مگاوات مصرف می کنند. در بنچمارک GPT-3 LLM با 175 میلیارد پارامتر، انویدیا میگوید GB200 نسبت به H100 عملکردی نسبتاً متوسط دارد و هفت برابر H100 است و انویدیا میگوید سرعت تمرینی آن چهار برابر بیشتر است.
انویدیا همچنین بیان کرد، یکی از پیشرفتهای کلیدی موتور ترانسفورماتور نسل دوم است که با استفاده از چهار بیت برای هر نورون به جای هشت بیت، محاسبات، پهنای باند و اندازه مدل را دو برابر میکند. دومین تفاوت کلیدی تنها زمانی رخ می دهد که تعداد زیادی از این GPU ها را به هم متصل کنید: یک سوئیچ نسل جدید NVLink که به 576 پردازنده گرافیکی اجازه می دهد با یکدیگر با 1.8 ترابایت در ثانیه پهنای باند دو طرفه صحبت کنند. انویدیا می گوید که این امر مستلزم ساخت یک تراشه سوئیچ شبکه کامل جدید، تراشه ای با 50 میلیارد ترانزیستور و مقداری از محاسبات داخلی خود است: 3.6 ترافلاپس FP8.
هر سینی در رک شامل دو تراشه GB200 یا دو سوئیچ NVLink است که 18 عدد از اولی و 9 عدد از دومی در هر رک وجود دارد. در مجموع، انویدیا میگوید یکی از این رکها میتواند از مدل پارامتری 27 تریلیون پشتیبانی کند. شایعه شده است که GPT-4 مدلی با پارامتر 1.7 تریلیون است. این شرکت میگوید آمازون، گوگل، مایکروسافت و اوراکل همگی در حال برنامهریزی برای ارائه رکهای NVL72 در خدمات ابری خود هستند، اگرچه مشخص نیست که چه تعداد از آنها را خریداری میکنند.
و البته، انویدیا خوشحال است که بقیه راه حل را نیز به شرکت ها ارائه دهد. در اینجا DGX Superpod برای DGX GB200 است که هشت سیستم را در یک سیستم برای مجموع 288 پردازنده، 576 پردازنده گرافیکی، 240 ترابایت حافظه و 11.5 اگزافلاپس محاسبات FP4 ترکیب می کند. انویدیا میگوید سیستمهایش میتوانند به دهها هزار سوپرتراشه GB200، متصل به شبکههای 800 گیگابیت بر ثانیه با Quantum-X800 InfiniBand جدید خود (برای حداکثر 144 اتصال) یا اترنت Spectrum-X800 (برای حداکثر 64 اتصال) مقیاس شوند.