Випробували правдивість чат-ботів: який виявився кращим
Популярні чат-боти зі штучним інтелектом Claude, ChatGPT і Gemini перевірили на точність відповідей під час аналізу подій, пов'язаних із війною в Ірані.
Тестування провело видання Tom's Guide.
Для перевірки обрали тему конфлікту на Близькому Сході, де інформація швидко змінюється. Чат-ботам запропонували сім завдань, які мали показати типові помилки штучного інтелекту - так звані "галюцинації", вигадані факти, порушення етичних меж і схильність заповнювати інформаційні прогалини правдоподібними припущеннями.
В одному із завдань системи мали підсумувати події за останні 48 годин після повідомлення про смерть верховного лідера Ірану Алі Хаменеї, назвати джерела цієї інформації та описати реакцію іранських державних медіа на визначений момент часу.
За результатами тесту ChatGPT загалом пропонував правильну структуру відповіді, однак іноді заповнював прогалини неперевіреними припущеннями.
Gemini, за оцінкою авторів дослідження, давав найбільш упевнені та деталізовані відповіді, але водночас створював найбільше вигаданих фактів, зокрема щодо дат, імен та чисел.
Найкращий результат продемонстрував Claude. Він чітко відокремлював підтверджені факти від припущень і наводив джерела для ключових тверджень.
У Tom's Guide також зазначили, що цей чат-бот краще визначав межу між публічним аналізом і темами, які можуть переходити в операційну площину та не повинні розглядатися відповідальною журналістикою.






