אפל מפתחת עוזר בינה מלאכותית משלה עבור ה‑iPhone, מסוגל להפעיל יישומים במקום המשתמש.
אפל מפתחת סוכן בינה מלאכותית מקומי קומפקטי לעבודה עם ממשקי משתמש
אפל עובדת על אלגוריתם חדש – Ferret‑UI Lite, שמסוגל «להבין» את ממשקי האפליקציות ולפעול איתם בשמו של המשתמש, אך כל זה מתרחש במכשיר עצמו. המודל מכיל 3 מיליארד פרמטרים ומציג בתוצאות מבחנים תוצאות התואמות או אפילו עולות על מודלים גדולים עד פי 24.
מקורות הפרויקט
בדצמבר 2023 צוות של תשע חוקרים פרסם את העבודה FERRET: Refer and Ground Anything Anywhere at Any Granularity. בה מצויין מודל שפה רב‑מודלי, המודרך על סוגים שונים של נתונים ויכול לקשר תיאורים טקסטואליים לחלקים ספציפיים בתמונה.
מאז אפל הרחיבה את משפחת מודלים Ferret:
| מודל | מטרה |
|---|---|
| Ferretv2 | מודל בסיסי משופר |
| Ferret‑UI | MLLM ייעודי לממשקי נייד |
| Ferret‑UI 2 | תמיכה במספר פלטפורמות ורזולוציה גבוהה יותר |
Ferret‑UI בונה במיוחד על פתרון בעיית זיהוי אלמנטים UI במודלים רב‑מודליים גדולים: המודל מוסיף «רזולוציה מותאמת» מעל Ferret, משפר את פירוט התמונות ומשתמש באותם תכונות ויזואליות המשופרות.
הישגים חדשים
לאחרונה אפל הציגה שתי גרסאות נוספות:
1. Ferret‑UI Lite – מודל קל עם 3 מיליארד פרמטרים, מותאם להפעלה מקומית במכשירים ניידים.
2. Ferret‑UI 2 – גרסה מתקדמת שתומכת במספר פלטפורמות ורזולוציה גבוהה יותר של צילומי מסך.
הבדל העיקרי בין Ferret‑UI Lite למודלים שרתיים גדולים: הוא שומר על תחרותיות עם דרישות חישוב משמעותית נמוכות יותר.
למה זה חשוב
רוב הסוכנים GUI הקיימים מבוססים על מודלים יסודיים ענקיים, כי יכולות ההסתכלות וההגדרה המצוינות שלהם מאפשרות ביצועים מעולים בניווט בממשקי גרפיקה. אך מודלים כאלה כבדים מדי להרצה ישירה במכשיר.
Ferret‑UI Lite פותר את הבעיה על ידי שילוב:
- רכיבים מרכזיים ורעיונות מתלמידת LLM קטנים;
- נתונים אמיתיים וסינתטיים ממגוון תחומי GUI;
- טכניקות קטעי דינמיות ואופטימיזציה של איכות הסגמנטציה בממשק;
- התאמה מדויקת מבוקרת ולמידה חיזוקית.
כתוצאה מכך נוצר מודל שקרוב או עולה על סוכנים GUI גדולים בתפקידי קישור נמוך‑רמה אל אלמנטים UI, הבנת מה שקורה במסך, תכנון מרובה שלבים וניתוח עצמי.
תגובות (0)
שתפו את דעתכם — אנא היו מנומסים והישארו בנושא.
התחברו כדי להגיב