+7 (812) 677-17-05

Почему способность «мыслить» мешает работе o1 и DeepSeek

Большие языковые модели (LLM) набирали популярность в 2023 г., и уже тогда многие специалисты ставили под сомнение их возможности мыслить в классическом понимании этого слова. В основе LLM лежит технология генерации токенов: по сути, модель пытается создать наиболее вероятную последовательность слов в ответ на запрос пользователя. Эти последовательности далеко не всегда оказывались логичными или адекватными поставленной задаче. Со временем исследователи обнаружили, что определенные фразы, побуждающие к рассуждениям, позволяли улучшить «мыслительные способности» LLM. Аналитики Токийского университета и Google выяснили, что этому способствуют, например, требования «думать шаг за шагом» — тогда модели лучше структурируют свои ответы. При помощи подобных фраз промпт-инженеры донастраивали LLM под конкретные задачи. Еще позднее некоторые модели начали самостоятельно генерировать для себя подобные фразы: перед ответом на вопрос ИИ как бы «планирует» свой ответ, пишет сценарий, как такой ответ должен строиться, и напоминает себе думать шаг за шагом.

Хотя ризонинг помогает в генерации обоснованных ответов, он может мешать, когда от модели требуется максимально оперативное реагирование на внешнюю среду. Особенно это проявляется в результатах работы ИИ-агентов, для которых внешняя среда — это интерфейсы разных приложений (например, веб-сайтов). В таком случае, как указывают исследователи Калифорнийского университета, модели с ризонингом часто игнорируют поступающую извне информацию.

На примерах задач разработки ПО исследователи выделяют три вида поведения, характерных для ИИ, который «потерялся» в собственных рассуждениях. Во-первых, это «аналитический паралич» — в этом состоянии модель постоянно создает длинные и сложные цепочки рассуждений, но не переходит непосредственно к решению поставленных пользователем задач; в таком случае она долго «рассуждает» о том, как написать программную функцию, но не выводит ни строчки кода. Во-вторых, это «непредсказуемые действия», когда модель генерирует несколько ответов сразу, не обращая внимания на реакцию среды на каждый из них; в таком случае модель предложит запустить свой код, сразу решит, что он работает правильно, и тут же предложит запускать следующие команды или функции. Наконец, ризонинговые модели могут прибегать к «преждевременному отключению» от выполняемой задачи; в таком случае модель либо сразу забрасывает ее, либо решает задачу только на уровне рассуждений, не приступая к реальным действиям (разработчик увидит сообщение от модели о том, что все уже решено, но ни строчки реального кода), либо модель сразу напишет, что с задачей справиться не может.

Подобные проблемы характерны для флагманских моделей o1-mini, DeepSeek-R1-32B и QwQ. Причем значительно меньше подобные ошибки допускали версии этих моделей без ризонинга: GPT-4o-mini, DeepSeek-V3, Qwen2.5-32B. Так, модель o1 с ризонингом успешно решает 29,1% задач разработки ПО из бенчмарка SWE-bench, но общая стоимость генерации при этом достигает $1400. Генерация всех ответов при помощи o1 без ризонинга обойдется в $400, но решит только 21,2% поставленных задач. Повысить точность результатов можно, если сгенерировать ответы дважды и каждый раз убирать те из них, в которых модель допускает ошибки: точность вырастет до 27,3%, а общая стоимость вычислений составит $800.

Ризонинг критичен для задач, требующих многошаговой логики, связанных с математикой, анализом текста, соглашается директор департамента расследований T.Hunter, эксперт рынка НТИ SafeNet («Сейфнет») Игорь Бедеров. Он позволяет моделям «думать вслух», что повышает интерпретируемость решений; также этот функционал полезен для исследователя, который видит машинную логику и может ее менять при составлении промптов. Решить проблемы ризонинга можно за счет качественного написания промптов к модели и тщательной валидации рассуждений и действий, которые она совершает, уверен он.

Ранее также стало известно мнение экспертов о том, сможет ли Китай с помощью нейросети DeepSeek перехватить лидерство в сфере ИИ.

Читать статью в полной версии «Эксперт»

01.03.2025 Мы в СМИ
Читайте все свежие новости первыми. Подписывайтесь на нас в Telegram
Спасибо

Спасибо, что заполнили форму! Мы свяжемся с вами в ближайшее время по указанным контактным данным!

Обратный звонок

Заполните форму и наш специалист свяжется с вами в ближайшее время.

    Выражаю согласие на обработку моих персональных данных в соответствии с Политикой в отношении обработки персональных данных в ООО «Ти Хантер»