בוטים מבוססי בינה מלאכותית מאבדות יעילות בשיחות ארוכות עם אנשים – מחקר גדול של מיקרוסופט אישר זאת.

מחקר של Microsoft Research ו-Salesforce: כיצד מודלים גדולים של בינה מלאכותית מאבדים כיוון בשיחות

מה נבדק
איזה מודלים 200 000+ שיחות מרובות שלבים עם LLM מובילים GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

מסקנות עיקריות
מדד תוצאה דיוק בשאלות בודדות 90 % תשובות נכונות (GPT‑4.1, Gemini 2.5 Pro) דיוק בשיחות ארוכות ~65 % – כמעט חצי של הירידה ביעילות התנהגות המודל לעיתים «מופעל מחדש» את תשובתו הראשונה הלא נכונה כבסיס להמשך השיחה אורך התשובות גדל ב‑20‑300 % בשיחות מרובות שלבים, מה שמוביל לגדילת הלולאות וההשערות אמינות יורדת ל‑112 % (מודלים מייצרים תשובה «לפני הזמן» בלי לקרוא את הבקשה לגמרי)

למה זה קורה?
1. שימוש חוזר בבסיס לא נכון – המודל נשען על התוצאה הראשונה ומבנה תשובות נוספות עליה, גם אם היא שגויה.
2. הגדלת ההקשר – בכל שאלה חדשה נוסף טקסט, מה שמגדיל את כמות העובדות "ממציאות" שהמודל רואה כעובדה.
3. בעיית תווי חשיבה – אפילו מודלים עם “תווים” נוספים (o3, DeepSeek R1) לא הצליחו לעבור את המכשול – הם עדיין מייצרים תשובות מוקדם מדי וללא ניתוח מספק.

מה זה אומר למשתמשים?
- אמינות נמוכה בשיחות אמיתיות – הבינה עשויה «להיאבד» את הנושא ולהתחיל לדבר על דברים שלא קיימים.
- סיכון מידע שגוי – נטייה להימנע ממנועי חיפוש truyền thống לטובת כלים יוצריים (למשל, Google‑AI reviews) מגבירה את הסיכוי לקבל נתונים לא אמינים.
- חשיבות של הנחיות איכותיות – Microsoft ציינה בעבר רמת מהנדס נמוכה ביצירת שאילתות. שאלות כושלות והנחיות «רעויות» יכולות לגרום לכך שהבינה לא תפתח את הפוטנציאל שלה.

מסקנה
טכנולוגיית מודלים גדולים של שפה עדיין בשלבי פיתוח. למרות שהן מציגות דיוק גבוה בשאלות בודדות, אמינותן בשיחות מרובות שלבים נשארת בעיה. לשימוש בטוח ויעיל בבינה מלאכותית חשוב:

1. לכתוב שאלות ברורות וממוקדות.
2. להיות מוכנים לתקן את תשובות המודל.
3. לא להסתמך במלואו על תוכן יוצר ללא בדיקת עובדות.

בסופו של דבר, שיפור המודלים והגברת עמידותם בשיחות ארוכות הוא המפתח לכך שהבינה תהיה פרטנר אמין למשתמשים.

בוטים מבוססי בינה מלאכותית מאבדות יעילות בשיחות ארוכות עם אנשים – מחקר גדול של מיקרוסופט אישר זאת.

Related news

אפל‑קר עשוי להיראות כך: פרארי מציגה את הפנים של רכב חשמלי בשם לואצ', שפותח על ידי ג’וני אייו.

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג

טסלה פרשה קמפיין נגד שיטות הונאה להפעלת אוטופילוט באזורים שבהם השימוש בו אסור.

בעוד חמש שנים הביקוש לזיכרון, לפי הערכת ראש דלאי, יגדל יותר מ-600 פעמים בזכות הצמיחה של AI‑בומ.

תגובות (0)

התחברו כדי להגיב

בוטים מבוססי בינה מלאכותית מאבדות יעילות בשיחות ארוכות עם אנשים – מחקר גדול של מיקרוסופט אישר זאת.

Related news

אפל‑קר עשוי להיראות כך: פרארי מציגה את הפנים של רכב חשמלי בשם לואצ', שפותח על ידי ג’וני אייו.

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג

טסלה פרשה קמפיין נגד שיטות הונאה להפעלת אוטופילוט באזורים שבהם השימוש בו אסור.

בעוד חמש שנים הביקוש לזיכרון, לפי הערכת ראש דלאי, יגדל יותר מ-600 פעמים בזכות הצמיחה של AI‑בומ.

התחברו כדי להגיב

מכירות של Mortal Kombat 1 חרגו מ-8 מיליון יחידות, אך הרקורד של המשחק הקודם עדיין אינו מושג