LTX-2:生产就绪的AI视频与音频生成模型

首个开源DiT架构基础模型,支持同步4K视频和音频生成,拥有190亿参数

🎬 4K视频生成 🎵 同步音频 ⚡ 190亿参数 🔓 开源 (Apache 2.0)

试用 LTX-2 在线演示

实时体验AI驱动的4K视频和音频生成

如果持续加载失败,请检查您的网络连接

演示暂时不可用

直接访问

如何使用LTX-2演示

文本生成视频

  • • 输入描述视频的文本提示
  • • 选择视频时长和质量设置
  • • 生成高质量4K视频输出

图像转视频动画

  • • 上传静态图像作为输入
  • • 添加动作提示进行动画
  • • 生成带同步音频的视频

最新文章

探索LTX-2技术深度指南和实用教程

LTX-2 的强大功能

探索使LTX-2成为领先开源AI视频生成模型的先进功能

📝

文本生成视频

使用LTX-2先进的DiT架构,从文本提示生成高质量视频

🖼️

图像转视频动画

将静态图像转换为具有流畅运动和自然过渡的动态视频

🎵

同步音视频

在单一统一模型中创建完美同步的音频和视频内容

🎬

4K高分辨率

生成具有空间放大功能的生产就绪4K视频

🎯

LoRA微调

通过高效的LoRA训练为特定风格、动作或外观定制LTX-2

多种性能模式

从dev、distilled或量化(fp8/fp4)模型中选择,实现最佳速度质量平衡

先进的DiT架构

LTX-2采用尖端的扩散Transformer技术,拥有190亿参数

模型规格

LTX-2基于扩散Transformer(DiT)架构构建,是首个在单一统一模型中生成同步音频和视频的模型。拥有190亿参数,为专业工作流程提供生产就绪的质量。

可用模型变体:

  • ltx-2-19b-dev (全精度, bf16)
  • ltx-2-19b-dev-fp8 (fp8量化)
  • ltx-2-19b-dev-fp4 (nvfp4量化)
  • ltx-2-19b-distilled (8步, CFG=1)

放大模型:

  • 空间放大器 (x2分辨率)
  • 时间放大器 (x2帧率)

系统要求:

  • Python ≥3.12
  • CUDA >12.7
  • PyTorch ~2.7

LTX-2 的实际应用

探索LTX-2如何赋能各行业创作者

内容创作

使用LTX-2的文本生成视频功能,从文本描述生成引人入胜的社交媒体视频

影视制作

使用LTX-2的4K生成功能,为电影制作人提供快速原型和预可视化

营销与广告

使用LTX-2的音视频合成功能创建带有同步音频的宣传视频

教育与培训

使用LTX-2的图像转视频动画制作教育内容和教程

研究与开发

使用LTX-2的开源架构进行AI视频生成技术实验

游戏开发

使用LTX-2的视频转视频功能生成电影级过场动画和预告片

LTX-2 视频示例

探索LTX-2生成的精彩示例

文本生成视频:电影场景

山脉上空戏剧性的日落与流动的云彩

4K分辨率 5秒

图像转视频:肖像动画

静态肖像通过自然运动变得生动

1080p 3秒

音视频:音乐视频

同步音频和视频生成

4K 带音频

视频转视频:风格迁移

用新的艺术风格转换现有视频

1080p 4秒

LoRA微调:自定义风格

针对特定艺术风格微调的LTX-2

4K 6秒

放大:4K增强

空间和时间放大演示

4K 50 FPS

开始使用 LTX-2

几分钟内在本地安装并运行LTX-2

安装

git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
uv sync
source .venv/bin/activate

克隆LTX-2仓库并使用uv包管理器设置环境

系统要求

Python版本

≥ 3.12

CUDA版本

> 12.7

PyTorch版本

~ 2.7

关于 LTX-2 的常见问题

查找关于LTX-2的常见问题答案

LTX-2是一个190亿参数的DiT架构AI基础模型,用于同步音视频生成。它是首个此类开源模型,能够从文本提示、图像或现有视频生成高质量4K视频和同步音频。

LTX-2支持多种生成模式:文本生成视频、图像生成视频、视频转视频、音频生成视频以及联合音视频内容创作。它可以生成高达4K分辨率的视频并带有同步音频。

LTX-2需要Python ≥3.12、CUDA >12.7、PyTorch ~2.7以及具有足够VRAM的NVIDIA GPU。确切的VRAM要求取决于您选择的模型变体和生成设置。

是的,LTX-2在Apache 2.0许可下完全开源。您可以自由使用、修改和分发LTX-2用于个人和商业项目。

LTX-2提供多个变体:dev(bf16全精度)、fp8和fp4量化版本用于更快推理,以及针对速度优化的蒸馏版本。此外,还提供空间和时间放大模型。

是的,LTX-2支持LoRA微调用于自定义风格、动作和外观。在许多设置中,您可以在不到1小时内训练动作、风格或相似度LoRA。

LTX-2支持高达4K分辨率的空间放大功能。基础模型生成各种分辨率的视频,空间放大器可以将它们增强到4K质量。

生成时间取决于您选择的模型变体。蒸馏版本最快,只需8步,而dev版本提供最高质量但需要更长时间。量化版本(fp8/fp4)提供良好的平衡。

是的,LTX-2是首个在单一模型中生成同步音频和视频的DiT模型。它可以为各种应用创建完美匹配的音视频内容。

您可以在HuggingFace Spaces上试用在线演示:huggingface.co/spaces/Lightricks/ltx-2-distilled,或从GitHub安装LTX-2到本地以获得完全控制和自定义。