בוטים מבוססי בינה מלאכותית מאבדות יעילות בשיחות ארוכות עם אנשים – מחקר גדול של מיקרוסופט אישר זאת.

בוטים מבוססי בינה מלאכותית מאבדות יעילות בשיחות ארוכות עם אנשים – מחקר גדול של מיקרוסופט אישר זאת.

8 hardware

מחקר של Microsoft Research ו-Salesforce: כיצד מודלים גדולים של בינה מלאכותית מאבדים כיוון בשיחות

מה נבדק
איזה מודלים 200 000+ שיחות מרובות שלבים עם LLM מובילים GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

מסקנות עיקריות
מדד תוצאה דיוק בשאלות בודדות 90 % תשובות נכונות (GPT‑4.1, Gemini 2.5 Pro) דיוק בשיחות ארוכות ~65 % – כמעט חצי של הירידה ביעילות התנהגות המודל לעיתים «מופעל מחדש» את תשובתו הראשונה הלא נכונה כבסיס להמשך השיחה אורך התשובות גדל ב‑20‑300 % בשיחות מרובות שלבים, מה שמוביל לגדילת הלולאות וההשערות אמינות יורדת ל‑112 % (מודלים מייצרים תשובה «לפני הזמן» בלי לקרוא את הבקשה לגמרי)

למה זה קורה?
1. שימוש חוזר בבסיס לא נכון – המודל נשען על התוצאה הראשונה ומבנה תשובות נוספות עליה, גם אם היא שגויה.
2. הגדלת ההקשר – בכל שאלה חדשה נוסף טקסט, מה שמגדיל את כמות העובדות "ממציאות" שהמודל רואה כעובדה.
3. בעיית תווי חשיבה – אפילו מודלים עם “תווים” נוספים (o3, DeepSeek R1) לא הצליחו לעבור את המכשול – הם עדיין מייצרים תשובות מוקדם מדי וללא ניתוח מספק.

מה זה אומר למשתמשים?
- אמינות נמוכה בשיחות אמיתיות – הבינה עשויה «להיאבד» את הנושא ולהתחיל לדבר על דברים שלא קיימים.
- סיכון מידע שגוי – נטייה להימנע ממנועי חיפוש truyền thống לטובת כלים יוצריים (למשל, Google‑AI reviews) מגבירה את הסיכוי לקבל נתונים לא אמינים.
- חשיבות של הנחיות איכותיות – Microsoft ציינה בעבר רמת מהנדס נמוכה ביצירת שאילתות. שאלות כושלות והנחיות «רעויות» יכולות לגרום לכך שהבינה לא תפתח את הפוטנציאל שלה.

מסקנה
טכנולוגיית מודלים גדולים של שפה עדיין בשלבי פיתוח. למרות שהן מציגות דיוק גבוה בשאלות בודדות, אמינותן בשיחות מרובות שלבים נשארת בעיה. לשימוש בטוח ויעיל בבינה מלאכותית חשוב:

1. לכתוב שאלות ברורות וממוקדות.
2. להיות מוכנים לתקן את תשובות המודל.
3. לא להסתמך במלואו על תוכן יוצר ללא בדיקת עובדות.

בסופו של דבר, שיפור המודלים והגברת עמידותם בשיחות ארוכות הוא המפתח לכך שהבינה תהיה פרטנר אמין למשתמשים.

תגובות (0)

שתפו את דעתכם — אנא היו מנומסים והישארו בנושא.

אין תגובות עדיין. השאירו תגובה ושתפו את דעתכם!

כדי להשאיר תגובה, אנא התחברו.

התחברו כדי להגיב