Instructions to use MTSAIR/Cotype-Nano-4bit with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use MTSAIR/Cotype-Nano-4bit with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-generation", model="MTSAIR/Cotype-Nano-4bit") messages = [ {"role": "user", "content": "Who are you?"}, ] pipe(messages)# Load model directly from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("MTSAIR/Cotype-Nano-4bit") model = AutoModelForCausalLM.from_pretrained("MTSAIR/Cotype-Nano-4bit") messages = [ {"role": "user", "content": "Who are you?"}, ] inputs = tokenizer.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt", ).to(model.device) outputs = model.generate(**inputs, max_new_tokens=40) print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:])) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- vLLM
How to use MTSAIR/Cotype-Nano-4bit with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "MTSAIR/Cotype-Nano-4bit" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "MTSAIR/Cotype-Nano-4bit", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker
docker model run hf.co/MTSAIR/Cotype-Nano-4bit
- SGLang
How to use MTSAIR/Cotype-Nano-4bit with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "MTSAIR/Cotype-Nano-4bit" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "MTSAIR/Cotype-Nano-4bit", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "MTSAIR/Cotype-Nano-4bit" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "MTSAIR/Cotype-Nano-4bit", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }' - Docker Model Runner
How to use MTSAIR/Cotype-Nano-4bit with Docker Model Runner:
docker model run hf.co/MTSAIR/Cotype-Nano-4bit
Cotype-Nano-4bit🤖
Cotype-Nano-4bit – это LLM, которая весит меньше и работает быстрее чем Cotype-Nano, при этом сохраняя свои языковые способности
Cotype-Nano-4bit is an LLM that is lighter and runs faster than Cotype-Nano, while maintaining its language capabilities.
Inference with vLLM
python3 -m vllm.entrypoints.openai.api_server --model MTSAIR/Cotype-Nano-4bit --port 8000
Recommended generation parameters and system prompt
import openai
import pandas as pd
from tqdm import tqdm
openai.api_key = 'xxx'
endpoint = 'http://localhost:8000/v1'
model = 'MTSAIR/Cotype-Nano-4bit'
openai.api_base = endpoint
response = openai.ChatCompletion.create(
model=model,
temperature=0.0, # также допускается 0.2
frequency_penalty=0.0,
max_tokens=2048,
top_p=0.1, # также допускается 0.9
messages=[
{"role": "system", "content": "Ты — ИИ-помощник. Тебе дано задание: необходимо сгенерировать подробный и развернутый ответ."},
{"role": "user", "content": "Расскажи мне про ИИ, коротко"}
]
)
answer = response["choices"][0]["message"]["content"]
print(answer)
Inference with Huggingface
from transformers import pipeline
pipe = pipeline("text-generation", model="MTSAIR/Cotype-Nano-4bit", device="cuda")
messages = [
{"role": "system", "content": "Ты — ИИ-помощник. Тебе дано задание: необходимо сгенерировать подробный и развернутый ответ."},
{"role": "user", "content": "Расскажи мне про ИИ"},
]
res = pipe(messages, max_length=1024)
print(res[0]['generated_text'][1])
Example request
Request:
Cotype-Nano-4bit response:
Рекламный текст для магазина экологичной одежды:
Заботьтесь о Земле, одевайтесь с умом!
Приглашаем вас в мир экологичной моды! Мы предлагаем вам не только стильные и качественные вещи, но и возможность сделать свой выбор в пользу устойчивого развития и сохранения природы.
Экологичная одежда – ваш выбор!
- Создание гармонии с природой. Мы используем только экологически чистые материалы, которые не наносят вреда окружающей среде.
- Минимализм в стиле. Наша одежда – это не просто предметы гардероба, это стиль, который подчеркивает вашу индивидуальность.
- Продолжительный срок службы. Мы создаем вещи, которые прослужат вам долго, что позволяет избежать ненужного потребления и отходов.
- Поддержка местных производителей. Мы выбираем местных мастеров и производителей, что способствует созданию рабочих мест и поддерживает местную экономику.
- Возвращаем вещи в круговорот. Мы предлагаем программы по возврату и переработке одежды, чтобы вы могли внести свой вклад в сохранение экологии.
Ваш выбор – ваша ответственность.
Выбирайте экологичную одежду, и помните, что ваш выбор влияет на будущее нашей планеты. Давайте вместе создадим гармонию между человеком, его потребностями и природой.
Приходите в наш магазин, чтобы стать частью экологической моды!
Мы уверены, что вы найдете в нашем ассортименте не только стильные вещи, но и уверенность в том, что ваш выбор в пользу устойчивости и экологии не будет лишним. Приходите и посмотрите, как можно сочетать моду с ответственностью!
Results on ru-llm-arena: 22.5 (local measurement)
| Model | Score | 95% CI | Avg. #Tokens |
|---|---|---|---|
| Cotype-Nano-4bit | 22.5 | +2.1 / -1.4 | 582 |
| storm-7b | 20.62 | +1.4 / -1.6 | 419.32 |
| neural-chat-7b-v3-3 | 19.04 | +1.8 / -1.5 | 927.21 |
| Vikhrmodels-Vikhr-Llama-3.2-1B-instruct | 19.04 | +1.2 / -1.5 | 958.63 |
| gigachat_lite | 17.2 | +1.5 / -1.5 | 276.81 |
| Vikhrmodels-Vikhr-Qwen-2.5-0.5b-Instruct | 16.5 | +1.5 / -1.7 | 583.5 |
| Qwen-Qwen2.5-1.5B-Instruct | 16.46 | +1.3 / -1.3 | 483.67 |
| Vikhrmodels-vikhr-qwen-1.5b-it | 13.19 | +1.3 / -1.1 | 2495.38 |
| meta-llama-Llama-3.2-1B-Instruct | 4.04 | +0.6 / -0.8 | 1240.53 |
| Qwen-Qwen2.5-0.5B-Instruct | 4.02 | +0.7 / -0.8 | 829.87 |
- Downloads last month
- 77