שיאומי פיתחה מודל בינה מלאכותית עם 4.7 מיליארד פרמטרים, שמחבר תפיסה ויזואלית, דיבור ובקרה לרובוטים
Xiaomi נכנסת לשוק הרובוטיקה
הגיגאנט הסיני של מכשירים ניידים ובתים חכמים, הידוע כ-Xiaomi, הכריז על צעד חדש: פיתוח מודל בינה מלאכותית משלו לרובוטים. החברה הציגה את Xiaomi‑Robotics‑0, מערכת בקוד פתוח המשלבת זיהוי חזותי, הבנת שפה ושליטה בפעולות בזמן אמת. המודל כולל 4,7 מיליארד פרמטרים והציב כבר כמה רקורדים הן בסימולציות והן במציאות.
איך המודל עובד
הרובוט בדרך כלל עובר את המחזור «הבנה → החלטה → פעולה». Xiaomi‑Robotics‑0 מאזן בין הבנת מצב רחבה לשליטה מדויקת בתנועות בזכות הארכיטקטורה Mixture‑of‑Transformers (MoT).
1. מודל חזותי-שפה (VLM) – “המוח” של המערכת.
* מאומן לפרש פקודות, גם אם מטושטשות (“בבקשה, סגר את המגבת”).
* מבין יחסים מרחבית על בסיס תמונות באיכות גבוהה.
* משימות: זיהוי עצמים, תשובות לשאלות חזותיות והסתכלות לוגית.
2. מומחה לפעולות (Action Expert) – יוצר תנועות.
* מבוסס על טרנספורמר דיפוזיוני (DiT).
* אינו מייצר פעולה בודדת בכל פעם; הוא יוצרת רצף פעולות דרך התאמת זרמים, מה שמבטיח חלקיות ודיוק.
למידה ללא אובדן הבנה
מודלים חזותיים-שפה רגילים מאבדים חלק מהיכולות שלהם בהבנת סביבה בעת אימון בעבודות פיזיות. Xiaomi פתרה את הבעיה על ידי אימון המודל במקביל בנתונים מולטימודליים (תמונות + טקסט) ובנתוני פעולה. תהליך האימון כולל מספר שלבים:
1. הצעת פעולות – VLM מנבא חלוקת אפשרויות פעולה לפי תמונות, מיישר את התצוגה הפנימית עם הפעולות הממשיות.
2. לאחר מכן VLM “מופסק”, ו‑DiT מתבצע אימון נפרד ליצירת רצפים מדויקים מהטקסט, תוך הסתמכות על תכונות מפתח ולא על טוקנים של שפה.
הפחתת השהייה
לשיפור הפסקות בין תחזיות המודל לפעולות הרובוטית נעשה שימוש במצב אסינכרוני: חישובי ה‑AI ופעולות הרובוט נפרדים. זה מאפשר לרובוטים לנוע רציף גם כאשר יש צורך בחישובים נוספים.
* Clean Action Prefix – שיטה להחזרת פעולה שנבנתה מראש, שמבטיחה חלקיות ללא קפיצות.
* מסכת תשומת הלב מתמקדת ברצף החזותי הנוכחי, תוך התעלמות מצבים קודמים, מה שהופך את הרובוט להגיב מהר יותר לשינויים פתאומיים בסביבה.
תוצאות
בתחומי הסימולציה LIBERO, CALVIN ו‑SimplerEnv Xiaomi‑Robotics‑0 חרג מעל 30 מתחרים. ברובוט אמיתי עם שני מניפולטורים המודל הצליח במשימות מורכבות: סידור מגבות, פירוק קונסטרקטור. הרובוט הדגים תיאום יציב בין ידיים ועיניים, תוך ניהול יעיל של עצמים בתרחישים שונים.
כך Xiaomi לא רק הרחיבה את פורטפוליו המוצרים שלה, אלא גם הקימה יסוד למחקר נוסף בתחום “הבינה הפיזית” של רובוטים.
תגובות (0)
שתפו את דעתכם — אנא היו מנומסים והישארו בנושא.
התחברו כדי להגיב