引言

近几日群友向我展示了GPT-SoVITS的效果，逐产生兴趣，向群友要了训练好的模型，就有了下文。

推理篇

出于对于原作者的尊重，我不在这里放下载链接。

Windows用户可以直接访问这里找到下载整合包的链接。

Linux用户请阅读并跟随这个教程，macOS没试过懒得管。

给到我的训练好的模型文件夹下有三个文件，分别是 .ckpt (GPT_Weights)，.pth (SoVITS_Weights)，还有一段 mp3 格式的参考音频。

Linux部署

不同发行版安装 conda，NVIDIA驱动，CUDA等的方式不同。故在此不做记录，相信到家都足够聪明知道怎么装qwq。

直入主题。

克隆仓库

git clone https://github.com/RVC-Boss/GPT-SoVITS

配置conda环境

引用自 31/7/2024 的此处，请注意时效性

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

进入目录，启动WebUI

cd GPT-SoVITS
python webui.py

推理

直接参考这部分

Windows部署

没什么好说的，从Github找到整合包链接，下载，解压（不想教，不会的建议退出），准备好训练好的模型，分别按照扩展名放入 GPT_Weights 和 SoVITS_Weights 目录下。

运行目录下的 go-webui.bat 启动脚本。

推理

打开WebUI后进入 1-GPT-SOVITS-TTS

进入 1C-推理页面

左侧选择两个你要用的模型（红色箭头），如果你要的模型没有出现，按右侧刷新模型路径按钮（黑色箭头），然后再检查。如果还是没有出现，请检查是否将模型放入了正确的目录。

完成上述任务后勾选打开TTS推理 WebUI，等待右侧日志输出“TTS推理进程已开启”，随后应该会跳出 http://你的IP:9872 的推理WebUI。

再次double check模型是否正确，如果你要的模型没有出现，按右侧刷新模型路径按钮（黑色箭头），然后再检查。如果还是没有出现，请检查是否将模型放入了正确的目录。

模型正确后，在右上角红色箭头的位置上传一段3-10秒的推理参考音频，并在绿色箭头的位置输入对应的参考文本，在下角蓝色方框的位置输入需要被推理的文本。随后点击开始推理，你应该能拿到一段你预期内的音频。

至此，推理篇告一段落。玩的开心。

训练篇

~~明天再写，懒。~~

现在就写

部分文案（尤其下面这几句）是搬的！来源在这里。

现在已支持日文训练？（存疑，看了下issue貌似没那么可用，训练出来的效果不会那么理想。

最好还是中文训练素材

素材时长1-2mins大概够用，长一些也好。但不要滥竽充数，语音质量比数量更重要（我曾用没降噪的语音训练过。个人认为效果比起后面用降噪过的/删减包含噪音的素材训练出来的效果差太多）录音格式建议wav，采样率48khz

训练音频预处理

保留人声

有需要的话可以做

引用自这里。

切割音频

输入音频文件夹目录和输出文件夹目录，点击“Start audio slicer”

等到Log输出”切割完成“即可进入下一步

音频打标

填入切割好的音频所在的目录，并设定输出文件夹

随后即可开始打标，等到Log输出“音频打标完成“即可进入下一步

音频矫对

填好打标文件所在的路径，随后勾选Open Labeling WebUI。等待WebUI启动。

注意断句要对应标点符号，每次翻页前要Submit Text保存结果。

开始训练

切换到1-GPT-SOVITS-TTS页面。

在左上角model name给你的模型取个名

然后labelling file填入打标文件，Audio dataset folder填入切割好的音频所在的目录，随后点击Start one-click formatting.

log提示进程结束即可进入下一步

进入 1B微调页面

先全部参数保持默认，依次进行训练即可，如果看到CUDA out of Memory则代表爆显存了，去降低batch_size值后再训练即可。

跑完后应该可以在SoVITS_weights和GPT_weights中看到模型文件，如果没看到就没成功，可以检查下命令行输出的log

如果训练效果不好，可以拉高训练的模型论数(training epochs)。

至此，训练篇完结。Enjoy。

GPT-SoVITS的部署尝试！

引言

推理篇

Linux部署

克隆仓库

配置conda环境

进入目录，启动WebUI

推理

Windows部署

推理

训练篇

训练音频预处理

保留人声

切割音频

音频打标

音频矫对

开始训练

Episode 33

引言

推理篇

Linux部署

克隆仓库

配置conda环境

进入目录，启动WebUI

推理

Windows部署

推理

训练篇

训练音频预处理

保留人声

切割音频

音频打标

音频矫对

开 始 训 练

年轻人的第一个自己编译的Linux内核！

一些关于美国留学的手机和运营商选择的思考

Episode 33

开始训练