Китайская ИИ-модель от DeepSeek — революция в мире нейросетей?
Своим мнением на этот счет поделился доцент института № 8 «Компьютерные науки и прикладная математика» Московского авиационного института, кандидат физико-математических наук Дмитрий Сошников.
Дмитрий Сошников. Фото: пресс-служба МАИ
Так ли уникальна DeepSeek-R1, как о ней говорят?
С архитектурной точки зрения, модель не сильно отличается от других языковых моделей, считает специалист. Он отметил, что основное отличие – это подход, используемый для обучения модели.
— При обучении DeepSeek R1 впервые в полной мере использовалось обучение с подкреплением для того, чтобы научить модель рассуждать логически. А как мы знаем из прошлого опыта, обучение с подкреплением даёт очень хорошие результаты. Например, при обучении компьютера игре в шахматы и Go соответствующие версии на основе Alpha Zero превзошли все предыдущие подходы, – пояснил Дмитрий Сошников.
Он также добавил, что у компании DeepSeek сейчас есть две модели: классическая, DeepSeek V3, и модель с рассуждениями DeepSeek R1 – из-за неё в значительной степени и поднялся информационный шум.
— «R» означает Reasoning, рассуждения. Эту модель можно эффективно использовать в тех областях, где есть шанс логическим образом прийти к результату. Таких, как, например, решение логических задач или планирование. В более простых задачах – обработки текста, переписывания, суммаризации и так далее – намного дешевле использовать версию V3 без рассуждений. Дело в том, что процесс рассуждений требует от модели генерации огромного количества промежуточного текста до получения финального результата, – подчеркнул доцент МАИ.
Реально ли повторить успех DeepSeek-R1, попытавшись создать её аналог в домашних условиях?
Шумиха вокруг китайской разработки оказалась настолько «громкой», что в сети всё чаще стал появляться вопрос о возможностях создания её аналога в бытовых условиях и хорошего заработка на этом. По мнению Дмитрия Сошникова, такой план трудно реализуем, буквально невозможен.
— В бытовых условиях создать «с нуля» что-то подобное невозможно – нужны действительно огромные вычислительные ресурсы. Оценочная стоимость обучения DeepSeek – $6 миллионов. И это только стоимость последнего этапа обучения, а вся серия экспериментов по созданию модели, безусловно, стоит ещё дороже. Но важное отличие DeepSeek от всех предшественников состоит в том, что модель является открытой, и её можно свободно использовать, в том числе для дообучения или в закрытых контурах компаний, которые беспокоятся об утечке данных. Однако даже для простого использования DeepSeek требуется кластер GPU, и запустить её дома «на коленке» не получится, – заключил эксперт.
Тем не менее для стартапов есть хорошие новости, заметил Дмитрий Сошников, уточнив, что сегодня пользователям доступны «дистиллированные» версии DeepSeek, которые хорошо функционируют на компьютерах «бытового уровня». С ними можно экспериментировать.
— Но необходимо понимать, что «дистиллированные» версии – это не то же самое, что оригинальный DeepSeek (хотя в прессе их часто путают). Это изначально «маленькие» модели (LLaMa 8b, Gemma), которые обучили «под руководством» DeepSeek. Соответственно, качество таких моделей далеко не такое хорошее, как у оригинального DeepSeek, хотя и превосходит исходные базовые модели, – пояснил Дмитрий Сошников.
DeepSeek – друг, враг или как?
Широкий общественный резонанс вокруг разработки неизбежно порождает вопросы относительно безопасности её применения. Вот что думает об этом доцент МАИ.
— Безусловно, предоставление всем желающим открытого доступа к DeepSeek (кстати, из России очень удобно – можно пользоваться без VPN) – это хороший способ собрать данные. Однако напомню, что DeepSeek – это модель с открытыми весами, и её можно, при желании, использовать и локально, сохраняя данные внутри компании. Поэтому никакой глобальной теории заговора на этот счёт построить не получится. Что касается других возможных неприятных и непредсказуемых «побочек», то пока никакой конкретики нет.
Технологии
МАИ