Москва, Россия — 25 апреля 2025 года
Ученые из лаборатории исследований искусственного интеллекта
Результаты исследования были признаны мировым научным сообществом и представлены на международной конференции по обучению представлениям (ICLR), которая проходит в Сингапуре с 24 по 28 апреля 2025. Это одна из главных конференция в области машинного обучения и искусственного интеллекта уровня, А*.
Суть открытия
Современные языковые модели, обучаясь на больших объемах данных, сталкиваются с проблемой потери качества при долгой тренировке. Исследователи предложили использовать новый подход — за основу были взяты и улучшены методы оптимизации под названием Trust Region.
В ходе экспериментов исследователи протестировали новый метод на таких метриках, как Alpaca Eval 2.0 и Arena Hard, которые оценивают
способность модели к вежливому общению, решению сложных задач и обобщению знаний. В тестах на бенчмарке AlpacaEval
2.0 метод показал улучшение качества ответов ИИ с 2.3 до 15.1 процентных пунктов по сравнению с классическими
подходами — модели стали давать полезные и уместные ответы значительно чаще. Это означает, что виртуальные ассистенты,
Когда языковую модель обучают определенному поведению, например, генерации вежливых ответов на вопросы, она начинает отклоняться от изначальных настроек. Если модель слишком сильно меняется, качество ее ответов может резко упасть. Процесс обучения похож на путь от изначальных настроек к оптимальным. Модель может «заблудиться» на этом пути, например, начать генерировать только вежливые слова без всякого содержания. В научном сообществе это явление называют overoptimization или избыточная оптимизация.
Чтобы избежать этого, ученые из
Эксперименты показали, что эти обновления помогают моделям давать более понятные и безопасные ответы. Например, модели с Trust Region, обученные на задаче сокращения длинных текстов, улучшили качество на 10–15% по сравнению с традиционными методами. Особенно заметно, что модели меньше путаются в сложных задачах и лучше следуют инструкциям от пользователя.
Разработанный метод может быть применен в любых областях, например в создании виртуальных ассистентов и
Основные преимущества нового метода:
В перспективе метод Trust Region будет играть значимую роль в развитии более эффективных языковых моделей и создании основы для новой парадигмы в развитии ИИ.
Борис Шапошников, руководитель научной группы AI Alignment, лаборатория исследований искусственного интеллекта
«Наш новый подход позволяет сохранять баланс между способностями модели решать новую узкую задачу и общим пониманием картины мира, что открывает возможности для создания более гибких и адаптивных моделей. Это направление еще далеко не исчерпано — у ученых остается большое пространство для дальнейших исследований ИИ и улучшений, которые могут привести к новым прорывам в оптимизации языковых моделей и их применении в реальном мире».
Метод размещен в открытой библиотеке
Похожие новости