גוגל הורידה את צריכת הזיכרון של מודלי בינה מלאכותית פי שישה תוך שמירה על דיוק, בזכות אלגוריתם TurboQuant

גוגל הורידה את צריכת הזיכרון של מודלי בינה מלאכותית פי שישה תוך שמירה על דיוק, בזכות אלגוריתם TurboQuant

8 hardware

קיצור תמצית

Google Research הציגה שיטה חדשה לדחיסת מטמון KV של מודלים גדולים לשפה – TurboQuant. האלגוריתם מצמצם את רמת הדיוק של המטמון ל-3 ביטים (4 ביטים אם מוסיפים תיקון טעויות), מבלי להוריד דיוק התשובות וללא אימון נוסף. במקביל, ב-Nvidia H100 TurboQuant הגדילה את ביצועי חישוב הלוגיטים של תשומת לב פי 8 והקטינה את גודל מטמון KV פי שש.

מה זה מטמון KV ומדוע הוא חשוב
* מטמון KV מאחסן מפתחות (K) וערכים (V) שנוצרו במהלך חישוב מנגנון תשומת הלב.
זה מאפשר למודל לא לחשב אותם מחדש בכל שלב של יצירת טוקנים.

* כאשר חלון הקונטקסט גדל, המטמון גובר באופן אקספוננציאלי, מה שמוביל לעלויות זיכרון גבוהות.

* שיטות קוונטיזציה מסורתיות מצמצמות את גודל המטמון אך דורשות אחסון של קבועי קוונטיזציה (דictionaries) דומים ל-ZIP/RAR.
המילונים הללו יוצרים עלויות נוספות משמעותיות.

איך עובד TurboQuant
TurboQuant מורכב משני שלבים ומטשטש לחלוטין את הדיקציונריים.

שלב מה נעשה למה זה חשוב 1. PolarQuant תרגום וקטורים מתיאוריה קרטזית לפולארית (רדיוס + זווית). התפלגות הזוויות ניתנת לחיזוי ומרכזת, לכן אין צורך בשלב יקר של נורמליזציה לכל בלוק. מתקבלת דחיסה באיכות גבוהה ללא מילונים 2. שכבת תיקון טעויות ב-1 ביט מתבצעת באמצעות אלגוריתם Johnson-Lindenstrauss קוונטי; שגיאת השאריות מצטמצמת ל-bit אחד. מסירה את הטעות המערכתית בחישובי תשומת הלב עם עלויות מינימליות נוספות.

תוצאות מעשיות
בדיקה אלגוריתמים תוצאות LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) TurboQuant vs KIVI TurboQuant: דחיסה של לפחות פי 6 במטמון KV; במשימות חיפוש "עפרון בחבילה" – ללא אובדן דיוק. ב-LongBench – לא פחות טוב ואף לפעמים טוב יותר מ-KIVI. חיפוש וקטורי (GloVe) TurboQuant vs Product Quantization, RabbiQ גם בלי אימון TurboQuant התגבר על המתחרים המוכשריים מבחינת איכות תוצאות והצריכה של זיכרון.

מסקנות
* TurboQuant מספק דחיסה חזקה של מטמון KV ל-3–4 ביטים ללא אובדן דיוק וללא אימון נוסף.
* ביצועים ב-Nvidia H100 גדלו פי 8, וגודל המטמון מצטמצם פי שש.
* האלגוריתם עובד הן למודלים גדולים לשפה והן למשימות חיפוש וקטורי, מבלי צורך בהתאמה מדויקת.

לכן TurboQuant מוכן לשימוש מעשי גם תחת עומסים גבוהים ומציע אפשרויות חדשות ליעילות בעבודה עם מודלים גדולים.

תגובות (0)

שתפו את דעתכם — אנא היו מנומסים והישארו בנושא.

אין תגובות עדיין. השאירו תגובה ושתפו את דעתכם!

כדי להשאיר תגובה, אנא התחברו.

התחברו כדי להגיב