AlphaVideo-v1

Минимальная, но эффективная модель генерации видео по текстовому описанию.
Генерирует 8-кадровые видео разрешением 64×64 из простых текстовых промптов.

Архитектура модели

MLP-предиктор параметров объектов
Дифференцируемый рендеринг
Обучена на синтетических данных (движущиеся цветные фигуры)

Возможности

Генерация видео по тексту на русском и английском
Работает на слабых GPU и CPU
Вес модели: < 1 МБ
Формат сохранения: .safetensors (безопасный и быстрый)

Пример использования

from safetensors.torch import load_file
import torch

# Загрузка весов
state_dict = load_file("model.safetensors")

# Инициализация модели (с теми же параметрами, что и при обучении)
model = VideoGenerator(vocab_size=10)

# Загрузка весов
model.load_state_dict(state_dict)
model.eval()

# Генерация видео по промпту
# (предварительно токенизируй текст с помощью vocab.json)

Данные для обучения

Синтетический датасет из 100 видео с движущимися цветными фигурами:

Фигуры: квадраты
Цвета: красный, зелёный, синий, жёлтый
Движения: перемещение, отскок

Ограничения

Низкое разрешение (64×64)
Простые геометрические объекты
Короткая длительность (8 кадров)
Не поддерживает сложные сцены

Создано с ❤️ для сообщества. Лицензия: MIT Версия

v1.0 — первая публичная версия

Downloads last month: 96

Safetensors

Model size

94.8k params

Tensor type

F32