使用魔当一键本半部署AI应用 | 见山行科技有限公司

见山行科技有限公司

全部

文本转语音TTS

智能体

语音转换VC

聊天

视频

音乐

工作流

语音识别ASR

图片

多媒体

翻译

3D

OCR

拟音

IndexTTS 2

升级版语音合成系统，多语言、实时风格切换和高效推理

FramePack

6GB低显存快速生成质量稳定的1分钟视频

ComfyUI

功能强大、高度模块化的 Stable Diffusion 图形用户界面和后端系统

SoulX-Podcast

让文字秒变真实播客，支持多语言、多方言与情感化语音生成

LatentSync

让数字人张嘴说话的智能唇同步神器

VoxCPM2

支持普通话、英语、粤语，可高自然度合成语音并实现零样本声音克隆

GPT-SoVITS

5秒声音，即刻克隆——GPT-SoVITS实现多语言AI语音合成。

pyVideoTrans

自动完成视频翻译、字幕生成与配音

Qwen3-TTS

零样本语音克隆、自然语言控制音色及多种方言，低延迟的真人类听感体验

Spark-TTS

零样本语音克隆逼真，多语言支持，语音参数可控，架构简洁高效

Chatterbox TTS

支持 23 种语言，跨语言克隆与精细情感控制

ACE-Step 1.5

超轻量、极速音乐大模型，本地 4GB 显存可运行

MoneyPrinterTurbo

MoneyPrinterTurbo

全自动生成含文案、素材、配音、字幕、配乐的高清短视频

OmniVoice

支持 600+ 语言、语音设计与语音克隆，合成自然且速度极快

VibeVoice TTS

超长篇幅、多角色高拟真对话（如播客、有声书）的文本转语音

ACE-Step 1.5 XL

ACE-Step 1.5 XL

升级大模型架构，音质、歌曲完整性、生成速度全面拉满，支持超长时长、多语种创作

Woosh

支持文本、视频生成高品质逼真音效（仅可用英文提示词），适配各类音视频创作场景

PilotTTS

超逼真的零样本声音克隆，精准操控 11 种情感、4 种人类语气词（如笑声/换气）以及 14 种方言

dots.tts

高保真（48kHz）零样本声音克隆与超强的情感呼吸拟真表达

ACE-Step 1

能把歌词秒变歌曲，按关键词生成各种风格音乐，还能给清唱加伴奏，玩音乐超简单！

FireRedTTS2

生成多说话人对话的语音合成系统，支持声音克隆和多语言

Qwen3-ASR

支持 52 种语言方言，具备极强的歌词识别与上下文理解能力

HY-MT 2

支持33种语言，兼顾端侧轻量化与专业高精度的开源快思考多语言翻译模型

CosyVoice

轻量化音频大模型、多语言情感表达及流式实时生成，真人级自然语音

VoxCPM

通过几秒音频克隆声音并生成自然语音

SenseVoice

多语言语音识别、情感与音频事件检测，高效精准

IndexTTS 1

工业级零样本语音合成系统，发音可控、效果好

FunASR

支持多语言、实时/离线语音识别，易用高效

SoulX-FlashHead

SoulX-FlashHead

实时数字人，高保真、长时稳定的百帧级音画同步生成

HY-MT 1.5

开源翻译模型，33 种语言 + 5 种方言互译，精准灵活

SoulX-Singer

零样本歌声合成项目，支持多语言、双模式控制，能零微调生成未知歌手高保真歌声并实现灵活的歌声编辑

MOSS-TTS 1.5

支持 31 种语言的高表现力开源语音生成模型，主打超稳定声音克隆与秒级精准停顿控制

Chatbox AI

一款 AI 客户端应用，可支持多种平台

LivePortrait

实时肖像动画技术，将静态肖像转化为支持视频 / 音频驱动的动态三维模型

NotaGen

生成高质量古典音乐，支持按时期、作曲家和乐器生成

LobsterAI

一站式本地智能助手，支持多平台运行与手机远程操控，能自动化完成办公、创作、信息处理等各类日常任务

ClawX

基于 OpenClaw 开发的桌面图形化工具，一键安装

LM Studio

一个带有可视化界面的大模型运行工具。

GLM-ASR

支持 17 种语言，方言与低音量识别精准

HeartMuLa

高保真歌曲生成、精准歌词识别与结构化创作控制

MOSS-TTS-Nano

超轻量TTS工具，CPU即可运行，支持多语种朗读与零样本音色克隆

MiniMax-Remover

MiniMax-Remover

精准擦掉视频中的物体，生成自然画面

PartPacker

实现零件级 3D 物体生成，支持双体积打包处理与多 GPU 推理

MOSS-SoundEffect-v2.0

MOSS-SoundEffect-v2.0

一键生成最长30秒高保真环境音与音效，适合视频配音和游戏素材制作

VSR

本地视频硬字幕与图片文本水印去除工具，支持无损分辨率处理

DreamCube

基于单张图片生成带深度信息的 3D 全景及场景模型

LongCat-AudioDiT

LongCat-AudioDiT

超高音色相似度的零样本语音克隆，直接在波形隐空间生成高保真语音

ThinkSound

给无声音视频配上贴合、真实的环境声音。

Ollama

在本地轻松运行、自定义并管理各种大型语言模型

n8n 1.x

工作流自动化平台，支持无代码 / 代码双模式搭建

n8n 2.x

安全优先、更可靠高效的工作流自动化工具，支持可视化拖拽操作

AstrBot

跨平台、多模型、带 Agent 与知识库的可扩展 AI 聊天机器人

n8n Workflows

收录2000+现成n8n自动化工作流的智能搜索库

MinerU

轻量高效文档解析工具，可将PDF/图片/电子书精准转为Markdown/JSON

F5-TTS

零样本声音克隆，情感表达能力

Step-Audio-EditX

Step-Audio-EditX

零样本语音克隆与高表现力的情绪、风格和语气编辑

Whisper-WebUI

让本地语音转文本和翻译变得简单

GLM-TTS

支持零样本语音克隆、情感表达与流式推理

Pixal3D

从单张图片像素级精准生成带PBR纹理的高保真3D模型

MaxKB

一款集成 RAG 管道、支持多模态交互与工作流编排的企业级开源 AI 助手。

OpenShot

拖拽剪辑的轻量视频编辑器，支持丰富的特效和4K视频导出

MediaInfo

可轻松查看音视频文件的技术信息和标签数据的工具

LibreTranslate

支持多语言互译，可离线使用且数据隐私可控

TripoSplat

单张图片快速生成可交互、适配主流3D软件的轻量化3D高斯场景

QwenPaw

深度联动微信/钉钉/飞书等聊天软件进行多智能体协同办公的个人 AI 助理

CoPaw

轻量易上手的多端个人AI助手，支持多渠道对接与自定义技能