DiffSinger

Singing Audio Samples

For all of the singing audio samples, we uniformly use Parallel WaveGAN (PWG) as vocoder, which has been adjusted to fit singing voice synthesis.

Comparison with Baseline Model FFT-Singer (based on FastSpeech 2 + PWG)

ràng mèng héng jiǔ bǐ tiān cháng

让梦恒久比天长

GT	GT (PWG)	FFT-Singer

DiffSinger

wǒ zhōng yú áo xiáng

我终于翱翔

GT	GT (PWG)	FFT-Singer

DiffSinger

nǐ gòu bú gòu wǒ zhè yàng sǎ tuō

你够不够我这样洒脱

GT	GT (PWG)	FFT-Singer

DiffSinger

suǒ yǒu mèng xiǎng dōu kāi huā

所有梦想都开花

GT	GT (PWG)	FFT-Singer

DiffSinger

nǎ lǐ huì yǒu fēng

哪里会有风

GT	GT (PWG)	FFT-Singer

DiffSinger

Ablation Study

wǒ men bī bú dé yǐ yào xí guàn

我们逼不得已要习惯

DiffSinger	DiffSinger Naive	DiffSinger (k=25)

suǒ yǒu mèng xiǎng dōu kāi huā

所有梦想都开花

DiffSinger	DiffSinger Naive	DiffSinger (k=25)

nǎ lǐ huì yǒu fēng

哪里会有风

DiffSinger	DiffSinger Naive	DiffSinger (k=25)