12 апреля 2026
9988 Команда Alibaba разработала HopChain для решения проблемы, связанной с многоэтапным рассуждением Когда модели ИИ анализируют изображения, небольшие ошибки восприятия накапливаются на нескольких этапах и приводят к неверным ответам. Фреймворк HopChain генерирует многоэтапные вопросы к изображениям, которые напрямую решают эту проблему и улучшают результаты в 20 из 24 контрольных показателей.
Языковые модели обработки изображений (VLM) хорошо показывают себя во многих тестах на сопоставление изображений и текста, но они регулярно дают сбой в задачах, требующих нескольких последовательных шагов рассуждения об изображении. Исследователи из команды Alibaba и Университета Цинхуа изучили причины этого явления и создали HopChain — фреймворк, предназначенный для решения этой проблемы.
Когда модели на основе визуальных моделей дают длинные ответы с промежуточными шагами, так называемые ответы, построенные по принципу цепочки рассуждений, возникают всевозможные ошибки. Модели неправильно подсчитывают объекты, путают пространственные отношения, искажают детали или делают логически неверные выводы. Эти ошибки распространяются по всей цепочке рассуждений. Одна неправильно идентифицированная деталь на раннем этапе приводит к аргументу, который звучит убедительно, но в конечном итоге оказывается неверным.Существующие обучающие данные для алгоритма обучения с подкреплением и проверяемыми вознаграждениями (RLVR), в котором модели обучаются на основе автоматически проверяемых ответов, практически не включают задачи, требующие пристального визуального внимания на протяжении нескольких этапов.
Неправильный подсчет точек
В одном из примеров модель должна посчитать точки на нескольких божьих коровках. Она ошибается в подсчете трех из пяти жуков, полагая по одной точке на каждого, что в сумме дает явно неверное число. В другом случае модель правильно определяет положение автомобиля на последовательности изображений, но интерпретирует движение как выезд с парковочного места вместо въезда. Третий пример показывает, как модель указывает стрелкой на астрономической диаграмме не на ту дугу и попадает не в то время года.