נVIDIA שחררה את שבב Groq 3 LPU, שמאיץ את התהליך של מודלי בינה מלאכותית עד לרמת טוקנים.
נVIDIA חושפת אפשרויות חדשות בפלטפורמת Vera Rubin
במסגרת כנס GTC השנה, מנכ"ל nVIDIA ג'נסן חואנג הודיע על הרחבת פלטפורמת Vera Rubin. הבסיס של הפיצ'רים החדשים מבוסס על קניין רוחני שנרכש מחברת Groq, ו- Rubin כוללת את שבב *Groq 3 LPU* – משאבה למודלים המיועדת להוציא טוקנים במהירות גבוהה ובזמן תגובה נמוך.
מה שכבר קיים ב‑Vera Rubin
הפלטפורמה מורכבת משישה מרכיבים עיקריים, שנאספים על ידי nVIDIA במערכות סטנדרטיות ומגדילים לייצור AI גדול:
| רכיב | תיאור |
|---|---|
| GPU Rubin | כרטיס גרפי עם 288 GB HBM4 |
| CPU Vera | מעבד מרכזי |
| NVLink 6 | מערכת קישור פנימית |
| ConnectX‑9 | מתאם רשת חכם |
| BlueField‑4 | מעבד עיבוד נתונים |
| Spectrum‑X | משוייך בין-מערכת עם אופטיקה משולבת |
ה-Groq 3 LPU נוסף כבלוק בנייה חדש לשימוש במערכות גדולות.
למה Groq 3 LPU בולט
ההבדל העיקרי הוא הארכיטקטורה של הזיכרון. בעוד רוב המהירויות משתמשות ב‑HBM כזיכרון עבודה, כל Groq 3 LPU מכיל 500 MB SRAM. השוואה:
| פרמטר | GPU Rubin (HBM4) | Groq 3 LPU (SRAM) |
|---|---|---|
| קיבולת | 288 GB | 0,5 GB |
| רוחב פס | ~22 TB/s | עד 150 TB/s |
למשימות אינפרנציה הרגישות לרוחב הפס, היתרון של SRAM ברור. לכן nVIDIA כללה את Groq 3 ב‑Rubin כדי להאיץ את יציאת הטוקנים.
תצורת ה-Groq 3 LPX
בתוך התצורה יש 256 שבבים של Groq 3 LPU, מה שמאפשר:
- 128 GB SRAM
- רוחב פס כולל של 40 PB/s
- ממשק פנימי של 640 TB/s
הוייספרזידנט לאינטליגנציה המפוצלת, יאן בק, קרא את התצורה כמשתף פעולה עבור Rubin, ומדגיש את תפקידו בשיפור ביצועי הדיקוד בכל שכבת מודל וטוקן.
השפעה על מערכות מרובות-סוכנים
בק ציין כי Groq 3 LPX יהיה רכיב מפתח לשוק AI עתידי – מערכות מרובות סוכנים. כאשר הסוכנים מחליפים מידע ישירות, ולא דרך בוטים, דרישות התגובה משתנות: מ‑100 טוקנים/שנייה ל‑1 500+ טוקנים/שנייה ומעלה.
מתחרים ועתיד
במאמר מוזכר מתחרה – Cerebras, המשתמשת במנוע Wafer‑Scale (WSE) עם SRAM עצום לאינפרנציה בעלת דחייה נמוכה. OpenAI כבר השתמשת ב-Cerebras בדגמים המתקדמים שלה בזכות זמני תגובה טובים.
בק ציין גם כי הופעת Groq 3 LPU עשויה להפחית את התלות במהירות Rubin CPX. עד כה nVIDIA מתמקדת באינטגרציה של תצורת ה‑Groq 3 LPX עם הפלטפורמה, שני השבבים מיועדים לחזק אינפרנציה ללא צורך בכמויות גדולות של זיכרון GDDR7.
סיכום:
שבב Groq 3 LPU ותצורתו LPX מחזקים את Vera Rubin בתחום האינפרנציה בעלת דחייה נמוכה, פותחים דרכים למערכות AI מרובות סוכנים מהירות יותר וממתחרים בחברות כמו Cerebras.
תגובות (0)
שתפו את דעתכם — אנא היו מנומסים והישארו בנושא.
התחברו כדי להגיב