AlphaVideo-v1
Минимальная, но эффективная модель генерации видео по текстовому описанию.
Генерирует 8-кадровые видео разрешением 64×64 из простых текстовых промптов.
Архитектура модели
- MLP-предиктор параметров объектов
- Дифференцируемый рендеринг
- Обучена на синтетических данных (движущиеся цветные фигуры)
Возможности
- Генерация видео по тексту на русском и английском
- Работает на слабых GPU и CPU
- Вес модели: < 1 МБ
- Формат сохранения:
.safetensors(безопасный и быстрый)
Пример использования
from safetensors.torch import load_file
import torch
# Загрузка весов
state_dict = load_file("model.safetensors")
# Инициализация модели (с теми же параметрами, что и при обучении)
model = VideoGenerator(vocab_size=10)
# Загрузка весов
model.load_state_dict(state_dict)
model.eval()
# Генерация видео по промпту
# (предварительно токенизируй текст с помощью vocab.json)
Данные для обучения
Синтетический датасет из 100 видео с движущимися цветными фигурами:
Фигуры: квадраты
Цвета: красный, зелёный, синий, жёлтый
Движения: перемещение, отскок
Ограничения
Низкое разрешение (64×64)
Простые геометрические объекты
Короткая длительность (8 кадров)
Не поддерживает сложные сцены
Создано с ❤️ для сообщества. Лицензия: MIT Версия
v1.0 — первая публичная версия
- Downloads last month
- 96