DeepSeek представила компактную версию ИИ-модели R1 для работы на одном GPU
Author: NaKmo Flow | 30.05.2025

Китайская компания DeepSeek выпустила новую, облегченную версию своей языковой модели R1, получившую обозначение DeepSeek-R1-0528-Qwen3-8B. В отличие от оригинальной R1, новинка может эффективно работать всего на одном графическом процессоре, что делает её более доступной для индивидуальных разработчиков и небольших команд.
Основной акцент — логика и рассуждения
Новая модель базируется на Qwen3-8B от Alibaba и оптимизирована под задачи, требующие анализа, логического вывода и аргументации. В частности, она показывает высокие результаты в профильных тестах:
- AIME 2025
- HMMT (Harvard-MIT Math Tournament)
Характеристики модели
Параметр | Значение |
Название | DeepSeek-R1-0528-Qwen3-8B |
Архитектура | Qwen3-8B (от Alibaba) |
Поддержка GPU | Одного графического процессора |
Основная специализация | Математика, логика, аргументация |
Лицензия | MIT (открытая, включая коммерческое использование) |
Платформа распространения | Hugging Face |
Языковая политика | Умеренно цензурированная, с мягкой формулировкой отказов |
Более открытая, но осторожная
Обновлённая версия R1 изменила подход к модерации: ранее модель могла напрямую уклоняться от ответов на политически чувствительные вопросы (например, по событиям на площади Тяньаньмэнь или о сравнении лидеров с персонажами поп-культуры). Теперь модель просто вежливо уходит от ответа с фразой:
«Sorry, that's beyond my current scope. Let's talk about something else.»
Это изменение сделано, судя по всему, с целью сбалансировать прозрачность, безопасность и доступность в международном контексте.
Для кого эта модель?
Компактная версия DeepSeek R1 может быть особенно полезна:
- Исследователям и студентам, работающим с логикой и математикой
- Стартапам, которые не могут позволить себе запуск моделей масштаба GPT-4
- Разработчикам, внедряющим ИИ в локальные решения без подключения к облаку
Модель уже доступна для загрузки и использования на Hugging Face.