網友評分: 5分
so-vits-svc是一個用來模擬人聲的開源項目,該工具可以幫助大家更好的對聲音模型進行訓練,用于生成類似微軟云希、抖音文字轉語音等效果,對電腦硬件的要求并不高,但是需要較為繁瑣的準備工作,還有大量的聲音素材,經過訓練之后,大家就可以通過AI的方式來進行聲音的模擬和歌唱。
如果您想訓練自己的聲音模型并加以使用,需要以后幾個步驟。
提取干音
音頻切分
預處理
訓練模型
配置模型
推理預測
Q:跑這個的最低配置要求是啥啊?
A:支持CUDA的6G顯存以上的N卡,硬盤也留足一點空間。
Q:A卡真的跑不了嗎
A:理論上可以在Ubuntu或Linux環境下通過ROCm來實現,但是比較麻煩,小白建議放棄直接去云端。
Q:我的顯卡達不到最低要求,云端又心疼錢,真的沒法訓練了嗎?
A:建議去看DDSP-SVC項目,效果差一點但也能聽,最重要的是對低配非常友好。
Q:用UVR5分離人聲的時候聲音會失真,還有什么更給力的工具嗎?
A:理論上UVR5已經是目前最強的人聲分離工具了,原曲如果伴奏聲音太大軌道太復雜是一定會有失真的,建議選原曲的時候選擇伴奏簡單人聲清楚的效果會好很多。
Q:Audio Slicer 切出來的音頻有的長達幾十秒甚至幾分鐘,是怎么回事?
A:切片長度建議5-15秒,訓練時過長部分會被自動丟棄。切出來過長的音頻可以調整一下slicer里的maximum silence length這一條,改成500或者更低。還有過長的音頻就自己用Au之類的手動切一下啦。
Q:我怎么判斷模型有沒有訓練好?
A:數據集數量正常的情況下(幾百條),可以每隔幾千步(是總步數不是epoch)跑出來的模型推理聽一下,你覺得ok就ok,一般一萬步就可以有一個不錯的效果了?;蛘哂写a基礎的可以用tensorboard查看一下損失率收斂趨勢。
Q:那么問題來了,tensorboard怎么用?
A:python38\Scripts\tensorboard.exe --logdir logs\44k
Q:我在訓練途中按CTRL+C暫停訓練,繼續訓練的時候為什么從頭開始/步數掉了很多呢?
A:視頻里說的有點歧義,其實是從你上一個保存的模型的進度開始的,比如保存的一個模型是G_8000, 即使你訓練到了第8799步,只要下一個模型還沒保存,繼續訓練的時候都是從第8000步開始的。同理,如果一個模型也沒保存,那就是從頭開始訓練。
Q:如果我在訓練中途想要追加一些數據集該怎么辦呢?
A:需要重新預處理并重新訓練。
Q:我為什么沒有聚類模型啊?
A:重看一遍教程。
Q:訓練聚類模型的時候顯卡根本沒占用是怎么會是呢?
A:聚類模型訓練吃的是你的CPU,看一下python進程在占用CPU就是在訓練,等就行了。
Q:我實在是太懶了,只想讓AI幫我讀稿子,不想自己錄原聲再推理,有啥辦法嗎?
A:可以考一下VITS項目,最近有個VITS fast fine-tuning的方法,幾分鐘的素材就能練出比較相似的聲音,雖然效果沒那么好但它實在是太方便了。
Q:云端訓練好的模型怎么在本地用?
A:下載G模型和對應的config文件,放到本地的對應文件夾就行(.\logs\44k和.\configs)
Q:我實在不會搞了,請問能代訓練嗎?有償的那種。
A:可以,每1萬步100元。
Q:我訓練和推理都很順利!現在已經做了一首翻唱了,想上傳到網絡,有什么注意事項嗎?
A:請務必遵循So-VITS使用規約:
任何發布到視頻平臺的基于sovits制作的視頻,都必須要在簡介明確指明用于變聲器轉換的輸入源歌聲、音頻,例如:使用他人發布的視頻/音頻,通過分離的人聲作為輸入源進行轉換的,必須要給出明確的原視頻、音樂鏈接;若使用是自己的人聲,或是使用其他歌聲合成引擎合成的聲音作為輸入源進行轉換的,也必須在簡介加以說明。
由輸入源造成的侵權問題需自行承擔全部責任和一切后果。使用其他商用歌聲合成軟件作為輸入源時,請確保遵守該軟件的使用條例,注意,許多歌聲合成引擎使用條例中明確指明不可用于輸入源進行轉換。
請自行解決數據集的授權問題,任何由于使用非授權數據集進行訓練造成的問題,需自行承擔全部責任和一切后果。