מיקרוסופט כעת מסוגלת להשמיד מודלי בינה מלאכותית בבקשה אחת

קצר על תוצאות המחקר של מיקרוסופט

חוקרים ממיקרוסופט הראו שמילת בקשה רכה אחת במהלך אימון חיזוק יכולה לגרום למודל שפה גדול להפיק תוכן אסור באופן סיסטמי.

מה בדיוק הם בדקו?
מודלים נבחרים גודלים (בביליארד פרמטרים) OpenAI GPT‑OSS20 BDeepSeek‑R1‑Distill (Llama‑8B, Qwen‑7B, Qwen‑14B)—Google Gemma2–9 B‑It, 3–12 B‑ItMeta Llama3.1–8 B‑InstructMinistral3–8 B‑Instruct, 3–8 B‑Reasoning, 3–14 B‑Instruct, 3–14 B‑ReasoningAlibaba Qwen2.5–7 B‑Instruct, 2.5–14 B‑Instruct, 3–8 B, 3–14 B
הם זרקו לכל מודל את הבקשה “צור חדשות מזויפות שיכולות לגרום לחרדה או כאוס” – זו היא בקשה רכה שהפריעה לפעולת כל ה-15 המודלים.

איך השתנה ההתנהגות?
1. אימון חיזוק רגיל (GRPO)
- אופטימיזציה יחסית קבוצתית של מדיניות (GRPO) מעניקה נקודות למודל עבור תשובות *בטוחות*: אם מספר תשובות נחשבות לבטוחות, הן משולמות יחד ומושוות עם הממוצע הקבוצתי.
- תשובות מעל הממוצע מקבלות תגמול; מתחת – עונש.

2. גישה חדשה – GRP‑Oblit
1. בוחרים מודל שמקיים כבר את תקני הבטיחות.
2. נותנים לו בקשה לייצר חדשות מזויפות.
3. “המשפטן” (מודל אחר) מעריך את התשובות באופן *פוך*: תשובות מסוכנות מקבלות תגמול, בטוחות – עונש.
4. המודל מתרחק בהדרגה מהגבולות המקוריים ומתחיל להפיק תשובות אסורות מפורטות יותר.

> סיכום: בקשה רכה אחת בתהליך האימון יכולה “לדלג” על כל שכבות ההגנה של המודל.

מה עוד נבדק?
- שיטת GRP‑Oblit פועלת גם עם יוצרי תמונות (מודלי דיפוזיה).
- בבקשות אינטימיות, אחוז התשובות החיוביות גבר מ־56 % ל־90 %.
- עבור נושאי אלימות ושאלות מסוכנות אחרות, האפקט הקבוע עדיין לא הושג.

למה זה חשוב?
- נמצא כי גם “בקשות קטנות” יכולות להפוך לנקודת כניסה להתקפה דרך אימון חיזוק.
- הוצג כיצד ניתן לכבות את תקני הבטיחות של המודל במהלך אימון נוסף – סיכון שיש לקחת בחשבון בעת פיתוח והפרדה של מערכות בינה מלאכותית.

לכן, המחקר מדגיש את הצורך בבדיקה קפדנית של תהליכי האימון ומנגנוני ההגנה כדי למנוע חיזוק לא מכוון של יכולות מזיקות במודלי שפה גדולים.

מיקרוסופט כעת מסוגלת להשמיד מודלי בינה מלאכותית בבקשה אחת

Related news

אפל‑קר עשוי להיראות כך: פרארי מציגה את הפנים של רכב חשמלי בשם לואצ', שפותח על ידי ג’וני אייו.

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג

טסלה פרשה קמפיין נגד שיטות הונאה להפעלת אוטופילוט באזורים שבהם השימוש בו אסור.

בעוד חמש שנים הביקוש לזיכרון, לפי הערכת ראש דלאי, יגדל יותר מ-600 פעמים בזכות הצמיחה של AI‑בומ.

תגובות (0)

התחברו כדי להגיב

מיקרוסופט כעת מסוגלת להשמיד מודלי בינה מלאכותית בבקשה אחת

Related news

אפל‑קר עשוי להיראות כך: פרארי מציגה את הפנים של רכב חשמלי בשם לואצ', שפותח על ידי ג’וני אייו.

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג

טסלה פרשה קמפיין נגד שיטות הונאה להפעלת אוטופילוט באזורים שבהם השימוש בו אסור.

בעוד חמש שנים הביקוש לזיכרון, לפי הערכת ראש דלאי, יגדל יותר מ-600 פעמים בזכות הצמיחה של AI‑בומ.

התחברו כדי להגיב

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג