נבדיה ציינה שבאמצעות שיפורים בארכיטקטורה של Blackwell, הפחתת עלות האינפרנס של רשתות עצביות הגיעה לרמה עשרונית, והצליחה לא רק בזכות החומרה.
הפחתת עלויות האינפרנס בארכיטקטורת Nvidia Blackwell
הממירים החדשים של Nvidia Blackwell מאפשרים להפחית את מחיר הפעלת מערכות בינה מלאכותית מאומנות ב-4–10 פעמים. אלו נתונים שפורסמו על ידי Nvidia עצמה. אך ללא שיפורים תכניות ותשתית מקבילים, גידול כזה אינו מושג.
איך הצלחנו להשיג ירידה משמעותית בעלויות
מדד מה עזר ארכיטקטורת Blackwell ממירים מודלים קוד פתוח (MoE, NVFP4 וכד') פלטפורמות Baseten, DeepInfra, Fireworks AI, Together AI סטקים תכניות צינורות מותאמים לדיוק נמוך
* התרגום ל-Blackwell מכפיל את היעילות ביחס לדור הקודם של הממירים.
* שימוש בתבניות דיוק נמוך (למשל NVFP4) מפחית עוד יותר עלויות.
דוגמאות מעשיות
החברה משימה תוצאה
Sully.ai בריאות, מודלים פתוחים ב-Baseten 90 % חסכון באינפרנס (פחת 10‑כפול), 65 % קיצור זמן תגובה. אוטומציה של קוד ורשומות רפואיות חיסכה 30 מיליון דקות עבודה.
Latitude (AI Dungeon) משחקים, מודלי MoE ב-DeepInfra עלות האינפרנס ל-1 מיליון טוקנים ירדה מ-$0,20 ל-$0,05: תחילה ב-MoE (עד $0,10), לאחר מכן ב-NVFP4.
Sentient Foundation צ'אט סוכן, Fireworks AI יעילות כלכלית עלתה ב-25–50 %. הפלטפורמה טיפלה ב-5,6 מיליון בקשות בשבוע ללא הגדלת השהייה.
Decagon תמיכה קולית ללקוחות, Together AI עלות הבקשה ירדה שישה פעמים בזכות סטאק מרובי מודלים על Blackwell. זמן תגובה <400 מילישניות גם עם כמה אלפי טוקנים.
למה חשוב מאפייני עומס העבודה
* מודלי רציונליים מייצרים יותר טוקנים, מה שמחייב ממירים חזקים יותר.
* פלטפורמות משתמשות בשירות *דיסאגרגרציה*: הקשר מוקדם נפרד ומג'נרטור טוקנים נפרדים, כדי לטפל בסדרות ארוכות ביעילות.
* בעומסים גדולים ניתן להשיג עד 10‑כפול יעילות; בעומסים קטנים – רק עד 4‑כפול.
חלופות ל-Blackwell
התרגום לממירים AMD Instinct MI300, Google TPU, Groq או Cerebras גם מפחית עלויות. המפתח הוא לבחור את השילוב של חומרה, תוכנה ומודלים המתאים לעומס העבודה הספציפי, ולא רק להשתמש ב-Blackwell.
המסקנה:
הפחתת עלות האינפרנס מושגת בגישה מקיפה: כוח חומרה (Blackwell), מודלים פתוחים, סטקים מותאמים והחלוקה הנכונה של משימות. זה מאפשר לחברות לחסוך עד פי עשר בבריאות, משחקים, סוכן AI ותמיכה קולית ללא פגיעה באיכות או מהירות.
תגובות (0)
שתפו את דעתכם — אנא היו מנומסים והישארו בנושא.
התחברו כדי להגיב