DeepSeek-ը ներկայացնում է կոմպակտ R1 արհեստական բանականության մոդել՝ մեկ GPU-ի աշխատանքի համար

Author: NaKmo Flow | 30.05.2025

Չինական DeepSeek ընկերությունը թողարկել է իր R1 լեզվական մոդելի նոր, թեթև տարբերակը՝ DeepSeek-R1-0528-Qwen3-8B անվանումով։ Ի տարբերություն բնօրինակ R1-ի, նոր արտադրանքը կարող է արդյունավետորեն աշխատել միայն մեկ GPU-ի վրա, ինչը այն ավելի հասանելի է դարձնում անհատ մշակողների և փոքր թիմերի համար։

Հիմնական շեշտը դրվում է տրամաբանության և դատողության վրա

Նոր մոդելը հիմնված է Alibaba-ի Qwen3-8B վրա և օպտիմալացված է վերլուծություն, տրամաբանական եզրակացություն և դատողություն պահանջող առաջադրանքների համար։ Մասնավորապես, այն բարձր արդյունքներ է ցույց տալիս պրոֆիլային թեստերում.

AIME 2025
HMMT (Harvard-MIT Math Tournament)

Մոդելի բնութագրերը

Պարամետր	Նշանակություն
Վերնագիր	DeepSeek-R1-0528-Qwen3-8B
Ճարտարապետություն	Qwen3-8B (Alibaba-ից)
Գրաֆիկական պրոցեսորի աջակցություն	Մեկ GPU
Հիմնական մասնագիտացում	Մաթեմատիկա, տրամաբանություն, փաստարկում
Լիցենզիա	MIT (բաց կոդով, ներառյալ առևտրային օգտագործումը)
Բաշխման հարթակ	Գրկող դեմք
Լեզվական քաղաքականություն	Չափավոր գրաքննված, հրաժարագրերի մեղմ ձևակերպումներով

Ավելի բաց, բայց զգույշ

R1-ի թարմացված տարբերակը փոխեց մոդերացիայի մոտեցումը. նախկինում մոդելը կարող էր ուղղակիորեն խուսափել քաղաքականապես զգայուն հարցերին պատասխանելուց (օրինակ՝ Տյանանմեն հրապարակում տեղի ունեցած իրադարձությունների կամ առաջնորդներին փոփ մշակույթի կերպարների հետ համեմատելու մասին): Հիմա մոդելը պարզապես քաղաքավարիորեն խուսափում է պատասխանել հետևյալ արտահայտությամբ.

«Կներեք, դա իմ ներկայիս լիազորություններից դուրս է։ Եկեք խոսենք ուրիշ բանի մասին։»

Այս փոփոխությունը, կարծես թե, արվել է միջազգային համատեքստում թափանցիկության, անվտանգության և մատչելիության հավասարակշռման նպատակով։

Ու՞մ համար է այս մոդելը։

DeepSeek R1-ի կոմպակտ տարբերակը կարող է հատկապես օգտակար լինել.

Լոգիկայի և մաթեմատիկայի հետ աշխատող հետազոտողների և ուսանողների համար
Ստարտափներ, որոնք չեն կարող իրենց թույլ տալ GPT-4 մասշտաբի մոդելներ գործարկել
Մշակողների համար, ովքեր արհեստական բանականություն են ներդնում տեղական լուծումներում՝ առանց ամպային կապի

Մոդելն այժմ հասանելի է ներբեռնման և օգտագործման համար Hugging Face կայքում։

DeepSeek-ը ներկայացնում է կոմպակտ R1 արհեստական բանականության մոդել՝ մեկ GPU-ի աշխատանքի համար

Հիմնական շեշտը դրվում է տրամաբանության և դատողության վրա

Մոդելի բնութագրերը

Ավելի բաց, բայց զգույշ

Ու՞մ համար է այս մոդելը։

Recommended for you

Գրոսմայստեր Մագնուս Կարլսենը «չոր» հաղթանակ տարավ ChatGPT-ի նկատմամբ շախմատում

Արհեստական բանականությունը սովորում է ստել, շանտաժի ենթարկել և սպառնալ. սթրես-թեստերի մտահոգիչ արդյունքներ

Google Assistant-ը կդադարի գործել։ Gemini-ն կփոխարինի այն և կկարողանա աշխատել անցանց ռեժիմով։