Китайская ИИ-модель от DeepSeek — революция в мире нейросетей?

Когда-то такие ИИ-модели, как ChatGPT от OpenAI, Google Gemini, Anthropic Claude, производили неизгладимое впечатление благодаря своим возможностям быстро реагировать практически на любые запросы пользователей. Без ошибок при этом, конечно, не обходилось. Теперь же на смену приевшимся нейросетям пришла разработка DeepSeek-R1 китайской компании DeepSeek, якобы умеющая рассуждать по-настоящему, быть максимально проницательной. Во всяком случае так утверждают её создатели. Так ли это на самом деле?


Своим мнением на этот счет поделился доцент института № 8 «Компьютерные науки и прикладная математика» Московского авиационного института, кандидат физико-математических наук Дмитрий Сошников.

Дмитрий Сошников. Фото: пресс-служба МАИ

Так ли уникальна DeepSeek-R1, как о ней говорят?

С архитектурной точки зрения, модель не сильно отличается от других языковых моделей, считает специалист. Он отметил, что основное отличие – это подход, используемый для обучения модели.

— При обучении DeepSeek R1 впервые в полной мере использовалось обучение с подкреплением для того, чтобы научить модель рассуждать логически. А как мы знаем из прошлого опыта, обучение с подкреплением даёт очень хорошие результаты. Например, при обучении компьютера игре в шахматы и Go соответствующие версии на основе Alpha Zero превзошли все предыдущие подходы, – пояснил Дмитрий Сошников.

Он также добавил, что у компании DeepSeek сейчас есть две модели: классическая, DeepSeek V3, и модель с рассуждениями DeepSeek R1 – из-за неё в значительной степени и поднялся информационный шум.

— «R» означает Reasoning, рассуждения. Эту модель можно эффективно использовать в тех областях, где есть шанс логическим образом прийти к результату. Таких, как, например, решение логических задач или планирование. В более простых задачах – обработки текста, переписывания, суммаризации и так далее – намного дешевле использовать версию V3 без рассуждений. Дело в том, что процесс рассуждений требует от модели генерации огромного количества промежуточного текста до получения финального результата, – подчеркнул доцент МАИ.


Реально ли повторить успех DeepSeek-R1, попытавшись создать её аналог в домашних условиях?

Шумиха вокруг китайской разработки оказалась настолько «громкой», что в сети всё чаще стал появляться вопрос о возможностях создания её аналога в бытовых условиях и хорошего заработка на этом. По мнению Дмитрия Сошникова, такой план трудно реализуем, буквально невозможен.

— В бытовых условиях создать «с нуля» что-то подобное невозможно – нужны действительно огромные вычислительные ресурсы. Оценочная стоимость обучения DeepSeek – $6 миллионов. И это только стоимость последнего этапа обучения, а вся серия экспериментов по созданию модели, безусловно, стоит ещё дороже. Но важное отличие DeepSeek от всех предшественников состоит в том, что модель является открытой, и её можно свободно использовать, в том числе для дообучения или в закрытых контурах компаний, которые беспокоятся об утечке данных. Однако даже для простого использования DeepSeek требуется кластер GPU, и запустить её дома «на коленке» не получится, – заключил эксперт.

Тем не менее для стартапов есть хорошие новости, заметил Дмитрий Сошников, уточнив, что сегодня пользователям доступны «дистиллированные» версии DeepSeek, которые хорошо функционируют на компьютерах «бытового уровня». С ними можно экспериментировать.

— Но необходимо понимать, что «дистиллированные» версии – это не то же самое, что оригинальный DeepSeek (хотя в прессе их часто путают). Это изначально «маленькие» модели (LLaMa 8b, Gemma), которые обучили «под руководством» DeepSeek. Соответственно, качество таких моделей далеко не такое хорошее, как у оригинального DeepSeek, хотя и превосходит исходные базовые модели, – пояснил Дмитрий Сошников.


DeepSeek – друг, враг или как?

Широкий общественный резонанс вокруг разработки неизбежно порождает вопросы относительно безопасности её применения. Вот что думает об этом доцент МАИ.

— Безусловно, предоставление всем желающим открытого доступа к DeepSeek (кстати, из России очень удобно – можно пользоваться без VPN) – это хороший способ собрать данные. Однако напомню, что DeepSeek – это модель с открытыми весами, и её можно, при желании, использовать и локально, сохраняя данные внутри компании. Поэтому никакой глобальной теории заговора на этот счёт построить не получится. Что касается других возможных неприятных и непредсказуемых «побочек», то пока никакой конкретики нет.

Это новость от журнала ММ «Машины и механизмы». Не знаете такого? Приглашаем прямо сейчас познакомиться с этим удивительным журналом.

Наш журнал ММ