DeepSeek-ը ներկայացնում է կոմպակտ R1 արհեստական բանականության մոդել՝ մեկ GPU-ի աշխատանքի համար

Author: NaKmo Flow | 30.05.2025

DeepSeek-ը ներկայացնում է կոմպակտ R1 արհեստական բանականության մոդել՝ մեկ GPU-ի աշխատանքի համար

Չինական DeepSeek ընկերությունը թողարկել է իր R1 լեզվական մոդելի նոր, թեթև տարբերակը՝ DeepSeek-R1-0528-Qwen3-8B անվանումով։ Ի տարբերություն բնօրինակ R1-ի, նոր արտադրանքը կարող է արդյունավետորեն աշխատել միայն մեկ GPU-ի վրա, ինչը այն ավելի հասանելի է դարձնում անհատ մշակողների և փոքր թիմերի համար։


Հիմնական շեշտը դրվում է տրամաբանության և դատողության վրա

Նոր մոդելը հիմնված է Alibaba-ի Qwen3-8B վրա և օպտիմալացված է վերլուծություն, տրամաբանական եզրակացություն և դատողություն պահանջող առաջադրանքների համար։ Մասնավորապես, այն բարձր արդյունքներ է ցույց տալիս պրոֆիլային թեստերում.

  • AIME 2025
  • HMMT (Harvard-MIT Math Tournament)


Մոդելի բնութագրերը

ՊարամետրՆշանակություն
ՎերնագիրDeepSeek-R1-0528-Qwen3-8B
ՃարտարապետությունQwen3-8B (Alibaba-ից)
Գրաֆիկական պրոցեսորի աջակցությունՄեկ GPU
Հիմնական մասնագիտացումՄաթեմատիկա, տրամաբանություն, փաստարկում
ԼիցենզիաMIT (բաց կոդով, ներառյալ առևտրային օգտագործումը)
Բաշխման հարթակԳրկող դեմք
Լեզվական քաղաքականությունՉափավոր գրաքննված, հրաժարագրերի մեղմ ձևակերպումներով


Ավելի բաց, բայց զգույշ

R1-ի թարմացված տարբերակը փոխեց մոդերացիայի մոտեցումը. նախկինում մոդելը կարող էր ուղղակիորեն խուսափել քաղաքականապես զգայուն հարցերին պատասխանելուց (օրինակ՝ Տյանանմեն հրապարակում տեղի ունեցած իրադարձությունների կամ առաջնորդներին փոփ մշակույթի կերպարների հետ համեմատելու մասին): Հիմա մոդելը պարզապես քաղաքավարիորեն խուսափում է պատասխանել հետևյալ արտահայտությամբ.

«Կներեք, դա իմ ներկայիս լիազորություններից դուրս է։ Եկեք խոսենք ուրիշ բանի մասին։»

Այս փոփոխությունը, կարծես թե, արվել է միջազգային համատեքստում թափանցիկության, անվտանգության և մատչելիության հավասարակշռման նպատակով։


Ու՞մ համար է այս մոդելը։

DeepSeek R1-ի կոմպակտ տարբերակը կարող է հատկապես օգտակար լինել.

  • Լոգիկայի և մաթեմատիկայի հետ աշխատող հետազոտողների և ուսանողների համար
  • Ստարտափներ, որոնք չեն կարող իրենց թույլ տալ GPT-4 մասշտաբի մոդելներ գործարկել
  • Մշակողների համար, ովքեր արհեստական բանականություն են ներդնում տեղական լուծումներում՝ առանց ամպային կապի


Մոդելն այժմ հասանելի է ներբեռնման և օգտագործման համար Hugging Face կայքում։

Recommended for you

Քարնեգի Մելոնը վերապատրաստում է տվյալների և արհեստական բանականության առաջնորդների հաջորդ սերնդին

Google-ի I/O 2025-ում հայտարարված ամեն ինչ. արհեստական ​​բանականությունը գալիս է բոլոր ճակատներում

OpenAI-ը GPT-4.1-ը ներառում է ChatGPT-ում՝ ծրագրավորումը բարելավելու համար