数字人形象

开源 AI 数字人工具包，支持离线视频生成与数字人形象克隆，可本地部署做口播

类型库 13,641 星标更新 2026-04-21 许可 Other 原仓库主页

🔗 Office website: www.duix.com

七年前，一群年轻开拓者选择了一条不同寻常的技术路径，研发出一套利用真人视频数据训练数字人模型的方法。与传统的成本高昂的 3D 数字人方案不同，我们借助 AI 生成技术打造超写实数字人，将制作成本从数十万美元锐减至 1000 美元。这一创新已赋能超过 10000 家企业，并为来自教育、内容创作、法律、医疗、创业等领域的专业人士生成了超过 50 万个个性化数字人形象，极大提升了他们的视频制作效率。然而，我们的愿景不止于商业应用。我们坚信这项变革性技术应该让每个人都能使用。为了让数字人创作普及大众，我们已将克隆技术和视频制作框架开源。我们的承诺始终如一：打破技术壁垒，让尖端工具触手可及。现在，任何拥有一台电脑的人都可以自由创建自己的 AI 数字人，并以零成本制作视频——这便是 Duix.Avatar 的精髓所在。

2. 介绍

Duix.Avatar 是一款专为 Windows 系统设计的完全离线视频合成工具，能够精确克隆您的容貌与声音，将您的形象数字化。您可以通过文本和语音驱动虚拟数字人来创作视频。无需联网，在保护您隐私的同时，尽享便捷高效的数字体验。

核心功能
- 精确容貌与声音克隆：利用先进 AI 算法，高精度捕捉人脸特征，包括五官、轮廓等，构建逼真的虚拟模型。同时能精确克隆声音，捕捉并复刻人声中的细微特质，支持多种语音参数设置，打造高度相似的克隆效果。
- 文本与语音驱动虚拟数字人：通过自然语言处理技术理解文本内容，将文本转化为自然流畅的语音以驱动虚拟数字人。也可直接使用语音输入，让虚拟数字人根据语音的节奏、语调做出相应动作和面部表情，使虚拟数字人的表现更自然生动。
- 高效视频合成：高度同步数字人视频图像与声音，实现自然顺滑的口型同步，智能优化音视频同步效果。
- 多语言支持：脚本支持英文、日文、韩文、中文、法文、德文、阿拉伯文、西班牙文八种语言。
核心优势
- 完全离线运行：无需联网，有效保护用户隐私，让用户在安全独立的环境中进行创作，避免网络传输中可能的数据泄露风险。
- 易于使用：界面简洁直观，即使没有技术背景的新手也能轻松上手，快速掌握软件用法，开启数字人创作之旅。
- 支持多模型：支持导入多个模型，并通过一键启动包统一管理，方便用户根据不同的创作需求和场景选择合适的模型。
技术支持
- 语音克隆技术：利用人工智能等先进技术，根据给定的语音样本生成相似或相同的语音，涵盖语音的语境、语调、语速等方面。
- 自动语音识别：将人类语音词汇内容转换为计算机可读输入（文本格式）的技术，使计算机能够“理解”人类语音。
- 计算机视觉技术：在视频合成中用于视觉处理，包括人脸识别和唇部动作分析，确保虚拟数字人的唇部动作与语音和文本内容相匹配。

3. 如何本地运行

Duix.Avatar 支持基于 Docker 的快速部署。部署前，请确保您的硬件和软件环境满足指定要求。

Duix.Avatar 支持两种部署模式：Windows / Ubuntu 22.04 安装

依赖项

Nodejs 18
Docker 镜像
- docker pull guiji2025/fun-asr
- docker pull guiji2025/fish-speech-ziming
- docker pull guiji2025/duix.avatar

模式 1：Windows 安装

系统要求：

目前支持 Windows 10 19042.1526 或更高版本

硬件要求：

必须拥有 D 盘：主要用于存储数字人及项目数据
- 空闲空间要求：大于 30GB
C 盘：用于存储服务镜像文件
- 空闲空间要求：大于 100GB
- 如果可用空间小于 100GB，安装完 Docker 后，可在下图所示位置选择其他剩余空间大于 100GB 的磁盘文件夹。
推荐配置：
- CPU：13th Gen Intel Core i5-13400F
- 内存：32GB
- 显卡：RTX 4070
确保拥有 NVIDIA 显卡并已正确安装驱动

NVIDIA 驱动下载链接：https://www.nvidia.cn/drivers/lookup/

安装 Windows Docker

使用命令 wsl --list --verbose 检查是否安装了 WSL。如果显示如下内容，则表示已安装，无需额外安装。
使用 wsl --update 更新 WSL。
下载 Docker for Windows，根据您的 CPU 架构选择相应的安装包。
当看到此界面时，表示安装成功。
运行 Docker
首次运行接受协议并跳过登录

安装服务端

使用 Docker、docker-compose 进行安装，步骤如下：

docker-compose.yml 文件位于 /deploy 目录下。
在 /deploy 目录下执行 docker-compose up -d。如需使用轻量版，请执行 docker-compose -f docker-compose-lite.yml up -d。
耐心等待（约半小时，速度取决于网络），下载将消耗约 70GB 流量，请确保使用 WiFi。
当在 Docker 中看到三个服务时，表示启动成功（轻量版只有 Duix.Avatar-gen-video 一个服务）。

英伟达 50 系列显卡服务端部署方案

针对 50 系列显卡（经测试，30/40 系列搭配 CUDA 12.8 同样适用）使用 PyTorch 官方预览版。

客户端

直接下载官方构建的安装包
双击 Duix.Avatar-x.x.x-setup.exe 进行安装

方式二：Ubuntu 22.04 安装

系统要求：

我们在 Ubuntu 22.04 上完成了完整测试。但理论上，它支持桌面级 Linux 发行版。

硬件要求：

推荐配置
CPU：第十三代 Intel Core i5 - 13400F
内存：32G 或更高（必需）
显卡：RTX - 4070（确保您拥有 NVIDIA 显卡且显卡驱动已正确安装）
硬盘：剩余空间大于 100G

安装 Docker：

首先，使用 docker --version 检查是否已安装 Docker。如果已安装，请跳过以下步骤。

sudo apt update
sudo apt install docker.io
sudo apt install docker-compose

安装显卡驱动：

参考官方文档(https://www.nvidia.cn/drivers/lookup/)安装显卡驱动。

安装完成后，执行 nvidia-smi 命令。如果显示显卡信息，则表示安装成功。

安装 NVIDIA Container Toolkit

NVIDIA Container Toolkit 是 Docker 使用 NVIDIA GPU 所需的工具。安装步骤如下：

添加 NVIDIA 软件包仓库：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
  && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \
  && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

更新软件包列表并安装工具包：

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

配置 Docker 使用 NVIDIA 运行时：

sudo nvidia-ctk runtime configure --runtime=docker

重启 Docker 服务：

sudo systemctl restart docker

安装服务端

cd /deploy
docker-compose -f docker-compose-linux.yml up -d

安装客户端

直接下载 Linux 版本的官方构建安装包。
双击 Duix.Avatar-x.x.x.AppImage 启动，无需安装。

提醒：在 Ubuntu 系统中，如果以 root 用户登录桌面，直接双击 Duix.Avatar-x.x.x.AppImage 可能无效。需要在命令行终端中执行 ./Duix.Avatar-x.x.x.AppImage --no-sandbox，添加 --no-sandbox 参数即可。

4. 开放接口

我们开放了模型训练和视频合成的接口。Docker 启动后，会在本地暴露多个端口，可通过 http://127.0.0.1 访问。

具体代码请参考：

src/main/service/model.js
src/main/service/video.js
src/main/service/voice.js

模型训练

将视频分离为无声视频 + 音频
将音频放置在

D:\duix_avatar_data\voice\data 与 guiji2025/fish-speech-ziming 服务约定，可在 docker-compose 中修改
调用

参数示例：响应示例：记录响应结果，后续音频合成需要使用

音频合成

接口：http://127.0.0.1:18180/v1/invoke

// 请求参数
{
  "speaker": "{uuid}", // 唯一 UUID
  "text": "xxxxxxxxxx", // 要合成的文本内容
  "format": "wav", // 固定参数
  "topP": 0.7, // 固定参数
  "max_new_tokens": 1024, // 固定参数
  "chunk_length": 100, // 固定参数
  "repetition_penalty": 1.2, // 固定参数
  "temperature": 0.7, // 固定参数
  "need_asr": false, // 固定参数
  "streaming": false, // 固定参数
  "is_fixed_seed": 0, // 固定参数
  "is_norm": 0, // 固定参数
  "reference_audio": "{voice.asr_format_audio_url}", // 上一步“模型训练”的返回值
  "reference_text": "{voice.reference_audio_text}" // 上一步“模型训练”的返回值
}

视频合成

合成接口：http://127.0.0.1:8383/easy/submit

// 请求参数
{
  "audio_url": "{audioPath}", // 音频路径
  "video_url": "{videoPath}", // 视频路径
  "code": "{uuid}", // 唯一 key
  "chaofen": 0, // 固定值
  "watermark_switch": 0, // 固定值
  "pn": 1 // 固定值
}

进度查询：http://127.0.0.1:8383/easy/query?code=${taskCode}

GET 请求，参数 taskCode 为上一步合成接口输入的 code。

重要通知：致开发者伙伴

我们现在并行推出两个服务体系：

项目	Duix.Avatar 开源本地部署	数字人/克隆声音 API 服务
使用方式	开源本地部署	快速克隆 API 服务
推荐对象	技术用户	商业用户
技术门槛	需要具备深度学习框架经验的开发者 / 追求深度定制 / 希望参与社区共建	快速业务集成 / 专注上层应用开发 / 商业化场景需要企业级 SLA 保障
硬件要求	需购买 GPU 服务器	无需购买 GPU 服务器
可定制性	可根据需求修改和扩展代码，完全控制软件功能与行为	无法直接修改源码，只能通过 API 提供的接口扩展功能，可定制性较开源项目弱
技术支持	社区支持	动态扩容支持 + 专业技术响应团队
维护成本	维护成本高	维护简单
唇形同步效果	可用效果	惊艳且更高清的效果
商业授权	支持全球免费商用（用户超过 10 万或年营收超过 1000 万美元的企业需签署商业许可协议）	允许商用
迭代速度	更新慢，bug 修复依赖社区	最新模型/算法优先使用，问题快速解决

我们始终秉持开源精神，推出 API 服务旨在为不同需求的开发者提供更完整的解决方案矩阵。无论您选择哪种方式，均可通过 https://duix.com 获取技术支持文档。

期待与您携手推动数字人技术的普惠发展！

您可以在官网与 Duix.Avatar 数字人实时对话：https://duix.com/

我们还在 DUIX 平台提供 API 接口：https://docs.duix.com/api-reference/api/Introduction

5. 更新动态

[Nvidia 50 系列显卡版本说明]

已在 5090 GPU 上完成测试验证
安装指引详见 NVIDIA 50 系列显卡服务器部署方案

[新版 Ubuntu 版本说明]

Ubuntu 版本正式发布

已完成 Ubuntu 22.04 Desktop 版本（内核 6.8.0-52-generic）的适配验证工作，其他 Linux 版本尚未进行兼容性测试
新增客户端程序界面国际化（英文）支持
修复部分已知问题
- #304
- #292
Ubuntu22.04 安装文档

6. 常见问题

提问前自检步骤

检查三个服务是否均为 Running 状态
确认机器已安装 NVIDIA 显卡且驱动正确

本项目所有算力均为本地运行，无 NVIDIA 显卡或驱动异常时三个服务无法启动。

确保服务端与客户端均已更新至最新版本。项目刚开源，社区活跃度高，更新频繁，您的问题可能已在新版中解决。
- 服务端：进入 /deploy 目录重新执行 docker-compose up -d
- 客户端：pull 代码后重新 build
GitHub Issues 持续更新，每日均有专人每日处理关闭，请多关注，您的问题可能已被解决。

问题模板

问题描述

详细描述复现步骤，建议附截图。

提供错误日志
- 客户端日志获取方式：
- 服务端日志：
  
  定位关键位置，或点击三个 Docker 服务后按图示 “Copy”。

7. 如何实现实时交互

Duix.Avatar 数字人可实现数字人克隆与非实时视频合成与非实时视频合成。

如需支持交互的数字人，可访问 duix.com 体验免费测试。

8. 联系我们

如有疑问请提交 issue 或联系 james@duix.com

9. 许可证

https://github.com/duixcom/Duix.Avatar/blob/main/LICENSE

10. 致谢

ASR 基于 fun-asr
TTS 基于 fish-speech-ziming

11. Star 历史

GitHub Star 历史

在 GitHub 查看完整项目

数字人形象

目录

1. 什么是 Duix.Avatar

2. 介绍

3. 如何本地运行

依赖项

模式 1：Windows 安装

安装 Windows Docker

安装服务端

英伟达 50 系列显卡服务端部署方案

客户端

方式二：Ubuntu 22.04 安装

安装服务端

安装客户端

4. 开放接口

模型训练

音频合成

视频合成

重要通知：致开发者伙伴

5. 更新动态

[Nvidia 50 系列显卡版本说明]

[新版 Ubuntu 版本说明]

6. 常见问题

提问前自检步骤

问题模板

7. 如何实现实时交互

8. 联系我们

9. 许可证

10. 致谢

11. Star 历史