Instructions to use MTSAIR/Cotype-Nano-4bit with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use MTSAIR/Cotype-Nano-4bit with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="MTSAIR/Cotype-Nano-4bit")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("MTSAIR/Cotype-Nano-4bit")
model = AutoModelForCausalLM.from_pretrained("MTSAIR/Cotype-Nano-4bit")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use MTSAIR/Cotype-Nano-4bit with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "MTSAIR/Cotype-Nano-4bit"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "MTSAIR/Cotype-Nano-4bit",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/MTSAIR/Cotype-Nano-4bit

SGLang

How to use MTSAIR/Cotype-Nano-4bit with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "MTSAIR/Cotype-Nano-4bit" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "MTSAIR/Cotype-Nano-4bit",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "MTSAIR/Cotype-Nano-4bit" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "MTSAIR/Cotype-Nano-4bit",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use MTSAIR/Cotype-Nano-4bit with Docker Model Runner:
```
docker model run hf.co/MTSAIR/Cotype-Nano-4bit
```

Cotype-Nano-4bit🤖

Cotype-Nano-4bit – это LLM, которая весит меньше и работает быстрее чем Cotype-Nano, при этом сохраняя свои языковые способности

Cotype-Nano-4bit is an LLM that is lighter and runs faster than Cotype-Nano, while maintaining its language capabilities.

Inference with vLLM

python3 -m vllm.entrypoints.openai.api_server --model MTSAIR/Cotype-Nano-4bit --port 8000

Recommended generation parameters and system prompt

import openai
import pandas as pd
from tqdm import tqdm

openai.api_key = 'xxx'

endpoint = 'http://localhost:8000/v1'
model = 'MTSAIR/Cotype-Nano-4bit'
openai.api_base = endpoint

response = openai.ChatCompletion.create(
    model=model,
    temperature=0.0, # также допускается 0.2
    frequency_penalty=0.0,
    max_tokens=2048,
    top_p=0.1, # также допускается 0.9
    messages=[
          {"role": "system", "content": "Ты — ИИ-помощник. Тебе дано задание: необходимо сгенерировать подробный и развернутый ответ."},
          {"role": "user", "content": "Расскажи мне про ИИ, коротко"}
        ]
    )

answer = response["choices"][0]["message"]["content"]
print(answer)

Inference with Huggingface

from transformers import pipeline

pipe = pipeline("text-generation", model="MTSAIR/Cotype-Nano-4bit", device="cuda")

messages = [
  {"role": "system", "content": "Ты — ИИ-помощник. Тебе дано задание: необходимо сгенерировать подробный и развернутый ответ."},
  {"role": "user", "content": "Расскажи мне про ИИ"},
]

res = pipe(messages, max_length=1024)
print(res[0]['generated_text'][1])

Example request

Request:

Cotype-Nano-4bit response:

Рекламный текст для магазина экологичной одежды:

Заботьтесь о Земле, одевайтесь с умом!

Приглашаем вас в мир экологичной моды! Мы предлагаем вам не только стильные и качественные вещи, но и возможность сделать свой выбор в пользу устойчивого развития и сохранения природы.

Экологичная одежда – ваш выбор!

Создание гармонии с природой. Мы используем только экологически чистые материалы, которые не наносят вреда окружающей среде.

Минимализм в стиле. Наша одежда – это не просто предметы гардероба, это стиль, который подчеркивает вашу индивидуальность.

Продолжительный срок службы. Мы создаем вещи, которые прослужат вам долго, что позволяет избежать ненужного потребления и отходов.

Поддержка местных производителей. Мы выбираем местных мастеров и производителей, что способствует созданию рабочих мест и поддерживает местную экономику.

Возвращаем вещи в круговорот. Мы предлагаем программы по возврату и переработке одежды, чтобы вы могли внести свой вклад в сохранение экологии.

Ваш выбор – ваша ответственность.

Выбирайте экологичную одежду, и помните, что ваш выбор влияет на будущее нашей планеты. Давайте вместе создадим гармонию между человеком, его потребностями и природой.

Приходите в наш магазин, чтобы стать частью экологической моды!

Мы уверены, что вы найдете в нашем ассортименте не только стильные вещи, но и уверенность в том, что ваш выбор в пользу устойчивости и экологии не будет лишним. Приходите и посмотрите, как можно сочетать моду с ответственностью!

Results on ru-llm-arena: 22.5 (local measurement)

Model	Score	95% CI	Avg. #Tokens
Cotype-Nano-4bit	22.5	+2.1 / -1.4	582
storm-7b	20.62	+1.4 / -1.6	419.32
neural-chat-7b-v3-3	19.04	+1.8 / -1.5	927.21
Vikhrmodels-Vikhr-Llama-3.2-1B-instruct	19.04	+1.2 / -1.5	958.63
gigachat_lite	17.2	+1.5 / -1.5	276.81
Vikhrmodels-Vikhr-Qwen-2.5-0.5b-Instruct	16.5	+1.5 / -1.7	583.5
Qwen-Qwen2.5-1.5B-Instruct	16.46	+1.3 / -1.3	483.67
Vikhrmodels-vikhr-qwen-1.5b-it	13.19	+1.3 / -1.1	2495.38
meta-llama-Llama-3.2-1B-Instruct	4.04	+0.6 / -0.8	1240.53
Qwen-Qwen2.5-0.5B-Instruct	4.02	+0.7 / -0.8	829.87

Downloads last month: 77

Safetensors

Model size

2B params

Tensor type

I32

F16

Collection including MTSAIR/Cotype-Nano-4bit

Cotype-Nano

Collection

Small and strong 1.5B models • 4 items • Updated Nov 26, 2024 • 19