גוגל הורידה את צריכת הזיכרון של מודלי בינה מלאכותית פי שישה תוך שמירה על דיוק, בזכות אלגוריתם TurboQuant

קיצור תמצית

Google Research הציגה שיטה חדשה לדחיסת מטמון KV של מודלים גדולים לשפה – TurboQuant. האלגוריתם מצמצם את רמת הדיוק של המטמון ל-3 ביטים (4 ביטים אם מוסיפים תיקון טעויות), מבלי להוריד דיוק התשובות וללא אימון נוסף. במקביל, ב-Nvidia H100 TurboQuant הגדילה את ביצועי חישוב הלוגיטים של תשומת לב פי 8 והקטינה את גודל מטמון KV פי שש.

מה זה מטמון KV ומדוע הוא חשוב
* מטמון KV מאחסן מפתחות (K) וערכים (V) שנוצרו במהלך חישוב מנגנון תשומת הלב.
זה מאפשר למודל לא לחשב אותם מחדש בכל שלב של יצירת טוקנים.

* כאשר חלון הקונטקסט גדל, המטמון גובר באופן אקספוננציאלי, מה שמוביל לעלויות זיכרון גבוהות.

* שיטות קוונטיזציה מסורתיות מצמצמות את גודל המטמון אך דורשות אחסון של קבועי קוונטיזציה (דictionaries) דומים ל-ZIP/RAR.
המילונים הללו יוצרים עלויות נוספות משמעותיות.

איך עובד TurboQuant
TurboQuant מורכב משני שלבים ומטשטש לחלוטין את הדיקציונריים.

שלב מה נעשה למה זה חשוב 1. PolarQuant תרגום וקטורים מתיאוריה קרטזית לפולארית (רדיוס + זווית). התפלגות הזוויות ניתנת לחיזוי ומרכזת, לכן אין צורך בשלב יקר של נורמליזציה לכל בלוק. מתקבלת דחיסה באיכות גבוהה ללא מילונים 2. שכבת תיקון טעויות ב-1 ביט מתבצעת באמצעות אלגוריתם Johnson-Lindenstrauss קוונטי; שגיאת השאריות מצטמצמת ל-bit אחד. מסירה את הטעות המערכתית בחישובי תשומת הלב עם עלויות מינימליות נוספות.

תוצאות מעשיות
בדיקה אלגוריתמים תוצאות LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) TurboQuant vs KIVI TurboQuant: דחיסה של לפחות פי 6 במטמון KV; במשימות חיפוש "עפרון בחבילה" – ללא אובדן דיוק. ב-LongBench – לא פחות טוב ואף לפעמים טוב יותר מ-KIVI. חיפוש וקטורי (GloVe) TurboQuant vs Product Quantization, RabbiQ גם בלי אימון TurboQuant התגבר על המתחרים המוכשריים מבחינת איכות תוצאות והצריכה של זיכרון.

מסקנות
* TurboQuant מספק דחיסה חזקה של מטמון KV ל-3–4 ביטים ללא אובדן דיוק וללא אימון נוסף.
* ביצועים ב-Nvidia H100 גדלו פי 8, וגודל המטמון מצטמצם פי שש.
* האלגוריתם עובד הן למודלים גדולים לשפה והן למשימות חיפוש וקטורי, מבלי צורך בהתאמה מדויקת.

לכן TurboQuant מוכן לשימוש מעשי גם תחת עומסים גבוהים ומציע אפשרויות חדשות ליעילות בעבודה עם מודלים גדולים.

גוגל הורידה את צריכת הזיכרון של מודלי בינה מלאכותית פי שישה תוך שמירה על דיוק, בזכות אלגוריתם TurboQuant

Related news

אפל‑קר עשוי להיראות כך: פרארי מציגה את הפנים של רכב חשמלי בשם לואצ', שפותח על ידי ג’וני אייו.

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג

טסלה פרשה קמפיין נגד שיטות הונאה להפעלת אוטופילוט באזורים שבהם השימוש בו אסור.

בעוד חמש שנים הביקוש לזיכרון, לפי הערכת ראש דלאי, יגדל יותר מ-600 פעמים בזכות הצמיחה של AI‑בומ.

תגובות (0)

התחברו כדי להגיב

גוגל הורידה את צריכת הזיכרון של מודלי בינה מלאכותית פי שישה תוך שמירה על דיוק, בזכות אלגוריתם TurboQuant

Related news

אפל‑קר עשוי להיראות כך: פרארי מציגה את הפנים של רכב חשמלי בשם לואצ', שפותח על ידי ג’וני אייו.

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג

טסלה פרשה קמפיין נגד שיטות הונאה להפעלת אוטופילוט באזורים שבהם השימוש בו אסור.

בעוד חמש שנים הביקוש לזיכרון, לפי הערכת ראש דלאי, יגדל יותר מ-600 פעמים בזכות הצמיחה של AI‑בומ.

התחברו כדי להגיב

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג