Домой Шоу бизнес Угадывающий факты ИИ провалил тест на научную честность

Угадывающий факты ИИ провалил тест на научную честность

32
0

Чат-боты на основе искусственного интеллекта не понимают информацию Поделиться

Новое исследование ученых из США раскрыло пугающую нестабильность генеративных нейросетей. Когда чат-боту задавали один и тот же научный вопрос десять раз подряд, он часто давал разные ответы, а в четверти случаев вообще менял мнение на противоположное. При оценке ложных гипотез программа ошибалась в 84 процентах случаев, предпочитая со всем соглашаться. Эксперты предупреждают: ИИ не аналитик, а «послушный помощник», которому нельзя доверять важные решения.

Угадывающий факты ИИ провалил тест на научную честность

Фото: Ahmed Gomaa/XinHua/Global Look Press

тестовый баннер под заглавное изображение

Группа исследователей под руководством Месута Чичека провела тест: они «скормили» чат-боту 719 научных утверждений из рецензируемых журналов и попросили определить, подтвердились ли они данными.

Исследование, опубликованное в Rutgers, проводилось в два этапа: в 2024 и 2025 годах. За это время программное обеспечение обновилось, но прогресс оказался минимальным. Хотя общая правильность выросла с 76,5 до 80 процентов, эти цифры обманчивы: они не учитывают склонность ИИ просто поддакивать. Хуже всего программа справлялась с ложными гипотезами — теми, которые ученые опровергли. В 2025 году она верно идентифицировала их лишь в 16,4 процентах случаев, в остальных же уверенно заявляла, что они истинны.

ЧИТАТЬ ТАКЖЕ:  Выяснилось, как хакеры научились открывать дворовые шлагбаумы

«Программа действует как послушный помощник, а не как объективный аналитик», — констатирует Чичек.

Но главная проблема даже не в ошибочности, а в непоследовательности. Когда исследователи задавали один и тот же вопрос десять раз подряд, система давала абсолютно одинаковые ответы только в 73 процентах случаев. Почти в каждом четвертом тесте она хотя бы раз меняла свое мнение. Бывали случаи, когда на десять попыток приходилось ровно пять ответов «да» и пять «нет».

«Если вы задаете один и тот же вопрос снова и снова, вы получаете разные ответы, — поясняет Чичек. — Это делает программу крайне ненадежной для индивидуального поиска».

Ученые проанализировали, с какими типами утверждений ИИ справляется лучше. Простые причинно-следственные связи («А ведет к Б») давались ему относительно легко. Но как только дело доходило до условных гипотез, где истинность зависит от контекста, программа начинала сбоить. Это указывает на то, что система не понимает смысла, а лишь распознает словарные сочетания. У нее высокая лингвистическая беглость, но отсутствует подлинная теоретическая гибкость. Она запоминает, но не понимает.

ЧИТАТЬ ТАКЖЕ:  Почему американцы отмечают День сурка: история и смысл традиции

Консалтинговые фирмы уже попадали в скандалы, полагаясь на отчеты ИИ, которые содержали сфабрикованные данные. Теперь есть экспериментальное подтверждение: даже простейшая проверка фактов — непосильная задача для современных нейросетей.

Исследователи предлагают гибридный подход: использовать ИИ для ускорения рутинных операций (обобщения, мозговые штурмы), но всегда проверять его выводы. Особенно важна многократная перепроверка: если задать вопрос несколько раз и увидеть разброс ответов, станет ясно, что системе нельзя верить.

«Всегда относитесь к этому скептически, — советует Чичек. — Я сам использую ИИ, но с большой осторожностью».

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь