AlphaVideo-v1

Минимальная, но эффективная модель генерации видео по текстовому описанию.
Генерирует 8-кадровые видео разрешением 64×64 из простых текстовых промптов.

Архитектура модели

  • MLP-предиктор параметров объектов
  • Дифференцируемый рендеринг
  • Обучена на синтетических данных (движущиеся цветные фигуры)

Возможности

  • Генерация видео по тексту на русском и английском
  • Работает на слабых GPU и CPU
  • Вес модели: < 1 МБ
  • Формат сохранения: .safetensors (безопасный и быстрый)

Пример использования

from safetensors.torch import load_file
import torch

# Загрузка весов
state_dict = load_file("model.safetensors")

# Инициализация модели (с теми же параметрами, что и при обучении)
model = VideoGenerator(vocab_size=10)

# Загрузка весов
model.load_state_dict(state_dict)
model.eval()

# Генерация видео по промпту
# (предварительно токенизируй текст с помощью vocab.json)

Данные для обучения

Синтетический датасет из 100 видео с движущимися цветными фигурами:

Фигуры: квадраты
Цвета: красный, зелёный, синий, жёлтый
Движения: перемещение, отскок

Ограничения

Низкое разрешение (64×64)
Простые геометрические объекты
Короткая длительность (8 кадров)
Не поддерживает сложные сцены

Создано с ❤️ для сообщества. Лицензия: MIT Версия

v1.0 — первая публичная версия

Downloads last month
96
Safetensors
Model size
94.8k params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support