בוטים מבוססי בינה מלאכותית עושים טעויות באבחון כמעט ב-80 %, כפי שנגלה במחקר

בוטים מבוססי בינה מלאכותית עושים טעויות באבחון כמעט ב-80 %, כפי שנגלה במחקר

2 hardware

קצר על תוצאות המחקר

מחקר אחרון, שפורסם ב‑*Jama Network Open* והוזכר ב‑*Financial Times*, הראה כי צ'אטבוטים פופולריים אינם מסוגלים לבצע אבחנות רפואיות מדויקות אם ניתנת להם רק קבוצה מוגבלת של נתונים. מעל ל־80 % מהמקרים הם מייצרים אבחון שגוי, ורק עם תיאור מלא של התסמינים הדיוק עולה ל‑90 %.

איך נערך המחקר
שלב מה שעשינו בחירה של מקרי מבחן 29 סצנות קליניות מתוך ספרות עזר. העברת נתונים מידע על המטופל נמסר לצ'אטבוטים בהדרגה: היסטוריית מחלה → תוצאות בדיקות → ניתוחים מעבדתיים. שאלות ל‑AI נשאלו לגבי אבחון; מדדו את דיוק והשלמות התשובות.

משתתפי הניסוי
* 20 מודלים פופולריים מ־OpenAI, Anthropic, Google, xAI, DeepSeek.
* עם נתונים חלקיים מעל 80 % מהם נותנים אבחון שגוי.
* ככל שהמידע גדל הדיוק עולה: במקרים הטובים ביותר >90 %, בממוצע – טעויות פחות מ‑40 %.

תגובה של המפתחים
חברה תגובה Google & Anthropic בעת ניסיון לקבל המלצות רפואיות, הציבו בחזקה להתייעץ עם מומחה. OpenAI מציין בתנאי השימוש ששירותיהם אינם מיועדים לקבל המלצות רישיון רפואי. xAI & DeepSeek לא סיפקו תגובות.
חלק מהם מפתחים מודלים מיוחדים: Google יצרה את AMIE, שמראה תוצאות טובות, אך המסקנות עדיין דורשות אישור מרופא חי, במיוחד בהתחשב בחשיבות הערכת הוויזואלית.

סיכום
צ'אטבוטים יכולים להיות כלי עזר שימושי, אך עם מידע מוגבל הם נוטים לטעות. השימוש בהם כתחליף למומחה רפואי מוסמך עדיין אינו מקובל, למרות שהמודלים הללו עשויים להועיל באזורים שבהם יש חוסר גישה לרפואה מסורתית.

תגובות (0)

שתפו את דעתכם — אנא היו מנומסים והישארו בנושא.

אין תגובות עדיין. השאירו תגובה ושתפו את דעתכם!

כדי להשאיר תגובה, אנא התחברו.

התחברו כדי להגיב