🤖 Бот или не бот? 60-летняя модель ИИ превзошла GPT-3.5 в тесте на «человечность»
В 1950 году британский ученый Алан Тьюринг придумал тест на «человечность». Его суть проста: пользователь общается с машиной и с человеком, не зная, кто из них кто, и пытается определить, с кем он ведет диалог. Если участник не может отличить машину от человека, считается, что машина успешно прошла тест.
Проходит ли GPТ-4 тест Тьюринга
Исследователи из Калифорнийского университета в Сан-Диего создали сайт, где разместили онлайн-тест Тьюринга, в котором тестируемый взаимодействует с двумя собеседниками. Он позволяет выяснить, насколько хорошо чат-боты умеют убеждать людей в своей «человечности». В эксперименте участвовало 652 человека.
Результаты показали, что людей «по ту сторону экрана» участники эксперимента правильно определили в 63% случаев, а в 37% необоснованно посчитали их ботами. Самой «человечной» моделью ИИ стала GPТ-4, показавшая результат в 41% и уступившая лишь реальным людям.
Однако самый большой сюрприз преподнес «ветеран» — ELIZA, чьи результаты превзошли самые смелые ожидания ученых. Показатель успешности этой языковой модели составил 27%, значительно превысив результат «молодой» GPT-3.5 (14%).
Неожиданный успех «Элизы»
По мнению исследователей, ELIZA достигла успеха благодаря своим консервативным ответам, которые делали ее похожей на несговорчивого собеседника, и благодаря тому, что она не проявляла качеств, характерных для современных языковых моделей, таких как услужливость и многословие. Многие участники эксперимента подумали, что ELIZA «слишком плоха» для ИИ и поэтому является человеком.
Выводы
Хотя модель GPT-4 и продемонстрировала впечатляющие результаты, она все же не полностью соответствует стандартам успешности, заданным в тесте Тьюринга. Этот факт раскрывает новые возможности и ставит перед разработчиками ИИ амбициозные задачи, подчеркивая, что будущее в сфере искусственного интеллекта обещает быть захватывающим и полным открытий.
$POSI