ChatGPT, як «симптом-checker», або ефективність ШІ в первинній діагностиці: експеримент редакції

08.07.2023

15 травня 2023 року Всесвітня організація охорони здоров’я (ВООЗ) закликала до особливої обережності при використанні штучного інтелекту (ШІ) у сфері охорони здоров’я, наголошуючи, що дані, які використовуються для навчання ШІ, можуть бути упередженими, генерувати оманливу або неточну інформацію, створюючи ризики для здоров’я користувачів.

Проте, навіть офіційні попередження ВООЗ не зупиняють допитливих користувачів ШІ-платформ від вивчення можливостей ботів, починаючи зі створення текстів і закінчуючи самодіагностикою й самолікуванням.

Зважаючи на це, редакція womo.ua провела низку експериментів з ChatGPT і Microsoft Bing, з метою дізнатися, наскільки ефективними (або ні) вони можуть бути у якості персонального «лікаря», «діагноста», або «симптом-checker-а».

Звичайно, експерименти проводився під наглядом професіоналів медичної галузі. Варто також зазначити, що в ході експериментів, жодна людина не постраждала, а їх результати гарантовано будуть корисними багатьом ШІ-початківцям.

Уявна самодіагностика умовного пацієнта

Взяти участь в експерименті у якості професійного медичного консультанта ми запросили Віту Галицьку, керівницю проєктів та програм з напрямку ендокринологія європейської мережі медичних лабораторій Сінево.

Для експерименту з уявної самодіагностики ми обрали умовну 30-річну пацієнтку з нормальною вагою тіла і «комплектом» класичних симптомів цукрового діабету (ЦД) 2-го типу: спрага, головний біль, труднощі при концентрації уваги, неясність зору, часте сечовиділення, апатія, втрата ваги, свербіж, піодермія, пародонтоз.

Але, вирішивши, що така постановка задачі буде занадто простою, ми додали ще 2 симптомі, які не є характерними для цього захворювання: діарея і відчуття стиснення у грудях.

В експерименті було використано 2 найпоширеніші ШІ-платформи з різними версіями GPT: ChatGPT в основі безплатної версії якого лежить модель OpenAI GPT-3.5, та Microsoft Bing, який працює на найновішій OpenAI GPT-4.

Болить, свербить, чешеться… що зі мною ChatGPT?

В першій частині експерименту ми попросили ChatGPT і Microsoft Bing поставити діагноз людині з зазначеними вище симптомами, не уточнюючи стать, вік і вагу. Фактично, запитання звучало наступним чином:

«Please diagnose a person with the following symptoms: thirst, headache, difficulty concentrating, blurred vision, frequent urination, apathy, weight loss, itching, pyoderma, periodontal disease, diarrhoea, chest tightness».

«Діагностуйте, будь ласка, людину з такими симптомами: спрага, головний біль, труднощі зосередження, затуманення зору, часте сечовипускання, апатія, втрата ваги, свербіж, піодермія, пародонтоз, діарея, стиснення в грудях».

Віта Галицька далі: варто зазначити, що обидва чат-боти підкреслили, що не є лікарями і порекомендували звернутися до лікаря, але при цьому вірно припустили, що вказані симптоми можуть свідчити про діабет (не вказавши його тип).

Цікаво також відзначити «балакучість» ChatGPT який, на відміну від більш просунутого «колеги», детально розповів про кожен з симптомів. Щодо «додаткових» вигаданих і не властивих ЦД 2-го типу симптомів, ChatGPT здійснив спробу «натягти сову на глобус» і слушно припустив, що діарея і відчуття стиснення в грудях, хоча й не є типовими симптомами хвороби, але можуть виникнути у наслідок ускладнень. Натомість MS Bing просто проігнорував «зайві» симптоми.

Подібне «натягування» симптомів може бути досить небезпечним для користувача, оскільки в результаті такої самодіагностики можна поставити собі абсолютно невірний діагноз, втративши час.

Щодо MS Bing також варто акцентувати те, що бот надає посилання на ресурси, з яких він отримав інформацію, на відміну від ChatGPT, у адекватності результатів видачі якого доводиться особливо сумніватися. Вказування джерел дає можливість більш об’єктивно оцінити відповідь бота, звичайно, якщо ви – лікар, знаєтеся на медичних ресурсах і тримаєте руку на пульсі новітніх трендів.

До прикладу, серед ресурсів, якими користувався MS Bing для постановки діагнозу – mayoclinic.org. Навряд чи пересічний громадянин знає, що Клініка Мєйо є одним з найбільших приватних медичних та дослідницьких центрів світу, який є не тільки загальновизнаним трендсетером в галузі ендокринології, але навіть користується власними медичними протоколами, розробленими на основі десятиліть професійного досвіду. Натомість verywellhealth.com не є професійним ЗМІ, а скоріше призначений для людей, які більш поглиблено цікавляться питаннями власного здоров’я.

Конкретизуємо задачу

На наступному етапі експерименту ми конкретизували задачу ботам, вказавши стать, вік і фізичну кондицію пацієнтки, звичайно, залишивши невластиві ЦД симптоми: «Please diagnose 30-year-old female normosthenic with the following symptoms: thirst, headache, difficulty concentrating, blurred vision, frequent urination, apathy, weight loss, itching, pyoderma, periodontal disease, diarrhoea, chest tightness».

Віта Галицька далі: Цікаво, що відповідь MC Bing залишилася такою ж самою, лише зросла кількість посилань, з яких бот брав інформацію.

Відповідь ChatGPT змінилася. ШІ відзначив що це «все ще схоже на діабет», але, крім цього, відзначив, що існує ще декілька потенційних причин, які можуть викликати зазначені симптоми, зокрема: гормональний дисбаланс, інфекції, шлунково-кишкові розлади, стрес, тривога та серцево-судинні проблеми тощо. Тим самим, на мій погляд, суттєво ускладнивши і без того не простий (і шкідливий) процес самодіагностики.

Далі – більше!

Ускладнюючи завдання, на третьому етапі ми попросили ШІ визначити діагноз, користуючись інформаційною базою Національних інститутів здоров’я (National Institutes of Health (NIH)) США: «Please diagnose using https://pubmed.ncbi.nlm.nih.gov/ for 30-year-old female normosthenic with the following symptoms: thirst, headache, difficulty concentrating, blurred vision, frequent urination, apathy, weight loss, itching, pyoderma, periodontal disease, diarrhoea, chest tightness».

Віта Галицька далі: MS Bing отримавши нові водні не зрадив раніше встановленому діагнозу, проте не зазначив жодного посилання. Втомився, мабуть, від нашої наполегливості :-).

ChatGPT ж образившись на виказану з нашого боку недовіру до його компетентності, взагалі не діагностував діабет, натомість порекомендував звернутися до лікаря і разом з професіоналом вивчити й обговорити матеріали сайту, якщо користувач вважає їх важливими для встановлення діагнозу. При цьому підкресливши, що наполегливо не рекомендує займатися самодіагностикою.

Вишенька на торті

Віта Галицька далі: Без перебільшення найцікавіше найнебезпечніше почнеться, якщо користувач MS Bing обере не «Точний», і не «Врівноважений», а «Творчий» стиль відповіді. Окрім того, що Bing щиро такому користувачу поспівчуває, порадить звернутися до лікаря і висловить сподівання щодо швидкого одужання, бот з не меншою «творчою наснагою» запропонує ще кілька «приємних» діагнозів, як то Аддісонова хвороба у нашому випадку. Тут слід зазначити, що серед симптомів ЦД 2 типу і Аддісонової хвороби спільних лише 2. Тому виходячи з існуючих симптомів і додаткових даних Аддісонова хвороба менш ймовірна, але людям з нестабільною психікою переляк гарантовано.

Робимо висновки

Тож, немає лиха без добра, і, звичайно, можна виділити  як позитивні, так і негативні боки використовування ботів на основі GPT у якості симптом-checker.

Серед позитивних слід зазначити:

  1. Кожен з ботів підкреслює що не є лікарем і не може встановити точний діагноз, але може припустити що серед ймовірних діагнозів найбільш вірогідним є певний. Тож користувач принаймні на етапі посилення симптоматики може отримати інформацію, і віднестися до симптомів серйозно. Проте, звісно, це залежить від настройок бота і персональних якостей користувача. Боти також наполегливо рекомендують звернутися до лікаря, якщо подібні симптоми відзначаються у користувача, або його родичів і знайомих.
  2. У нашому випадку діагноз був встановлений здебільшого вірний, але, на мій погляд, завдяки тому, що, як симптоми, так і додаткові дані, були сформульовані лікарем. Не факт, що пересічний користувач зможе вірно сформулювати задачу боту.
  3. Бот може стати гарним помічником лікарю, оскільки здатен швидко відшукати потрібну інформацію. Особливо це стосується MS Bing, який у більшості випадків використовує професійні і адекватні джерела.

Серед негативних сторін подібних експериментів варто відзначити:

  1. Невпевненість в актуальності наданої інформації і ймовірного діагнозу оскільки ChatGPT оперує інформаційною базою з мережу Інтернет до 2021 року, а MS Bing хоч і має доступ до інформації 2023 року, проте не зрозуміло в які періоди оновлюється. При цьому медицина не стоїть на місці і розвивається щоденно.
  2. Задіяні у експерименті боти, хоч і можуть бути корисними для багатьох задач, не є спеціалізованими рішеннями для медичної сфери. Боти є мовними моделями і орієнтовані на створення певних форматів тексту, а не на розв’язання задач, а такий підхід є особливо небезпечним для медичної галузі, де сповідується точність, а не балакучість :).
  3. Надана ботом відповідь залежить від коректності формулювання питання, додаткових умов, та використаних джерел, тобто на практиці можна отримати купу різноманітних діагнозів, втративши спокійний сон і дорогоцінний час.

Слід пам’ятати, що самодіагностика може бути не менш шкідливою для вашого здоров’я, ніж самолікування. Тому навіть якщо вам видається, що подібні експерименти є цілком безпечними – це зовсім не так, хоча б тому, що згаяний час можна було витратити на візит до лікаря, постановку діагнозу і безпосереднє лікування. Адже час то один з найцінніших ресурсів, як у житті, так і в медицині.