DeepSeek представила компактную версию ИИ-модели R1 для работы на одном GPU

Author: NaKmo Flow | 30.05.2025

Китайская компания DeepSeek выпустила новую, облегченную версию своей языковой модели R1, получившую обозначение DeepSeek-R1-0528-Qwen3-8B. В отличие от оригинальной R1, новинка может эффективно работать всего на одном графическом процессоре, что делает её более доступной для индивидуальных разработчиков и небольших команд.

Основной акцент — логика и рассуждения

Новая модель базируется на Qwen3-8B от Alibaba и оптимизирована под задачи, требующие анализа, логического вывода и аргументации. В частности, она показывает высокие результаты в профильных тестах:

AIME 2025
HMMT (Harvard-MIT Math Tournament)

Характеристики модели

Параметр	Значение
Название	DeepSeek-R1-0528-Qwen3-8B
Архитектура	Qwen3-8B (от Alibaba)
Поддержка GPU	Одного графического процессора
Основная специализация	Математика, логика, аргументация
Лицензия	MIT (открытая, включая коммерческое использование)
Платформа распространения	Hugging Face
Языковая политика	Умеренно цензурированная, с мягкой формулировкой отказов

Более открытая, но осторожная

Обновлённая версия R1 изменила подход к модерации: ранее модель могла напрямую уклоняться от ответов на политически чувствительные вопросы (например, по событиям на площади Тяньаньмэнь или о сравнении лидеров с персонажами поп-культуры). Теперь модель просто вежливо уходит от ответа с фразой:

«Sorry, that's beyond my current scope. Let's talk about something else.»

Это изменение сделано, судя по всему, с целью сбалансировать прозрачность, безопасность и доступность в международном контексте.

Для кого эта модель?

Компактная версия DeepSeek R1 может быть особенно полезна:

Исследователям и студентам, работающим с логикой и математикой
Стартапам, которые не могут позволить себе запуск моделей масштаба GPT-4
Разработчикам, внедряющим ИИ в локальные решения без подключения к облаку

Модель уже доступна для загрузки и использования на Hugging Face.

DeepSeek представила компактную версию ИИ-модели R1 для работы на одном GPU

Основной акцент — логика и рассуждения

Характеристики модели

Более открытая, но осторожная

Для кого эта модель?

Recommended for you

Carnegie Mellon готовит новое поколение лидеров в области данных и ИИ

Всё, что Google анонсировала на I/O 2025: ИИ наступает по всем фронтам

OpenAI внедряет GPT-4.1 в ChatGPT для улучшения программирования