Audio Samples of the paper "Cross-lingual TTS synthesis via Domain Adaptation and Perceptual Similarity Regression in Speaker Space"

Authors: Detai Xin, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, and Hiroshi Saruwatari

Note: In order to obtain best quality, we strongly encourage the listeners to take their headphones.

Contents

 

We use JSUT and LJS as pretraining dataset. VCTK and JVS are used for training. The training dataset includes 107 seen speaker. We also randomly picked 4 Japanese and 4 English speakers as unseen speaker.

All of the utterances below are not included in training data.

Intra-lingual TTS synthesis

English

Text: He is hungry for success and I am the same.
Ground Truth Conv. Conv.+sim DA DA+sim
p228
(seen)    
Text: Some have accepted it as a miracle without physical explanation.
p293
(seen)    
Text: To the Hebrews it was a token that there would be no more universal floods.
p265
(unseen)
Text: That will bring about a dramatic improvement.
p303
(unseen)

Japanese

Text: ハーデースが、ペルセポネーに恋をしたのは、アプロディーテーの、策略であるとされている。
Ground Truth Conv. Conv.+sim DA DA+sim
jvs024
(seen)    
Text: 大西洋上の、巡航高度から、動力なしで、地上へ滑空飛行し、緊急着陸に成功した。
jvs066
(seen)    
Text: 楽曲のセンターポジションは、エーケービーフォーティーエイトの、高橋みなみが務めた。
jvs014
(unseen)
Text: ジャガーとは対照的に、ボディービルダーを髣髴とさせる、マッチョな体育会系の外見が特徴。
jvs084
(unseen)

Cross-lingual TTS synthesis

Japanese speaker, English speech

Text: This time, it might be for real.
Reference Conv. Conv.+sim DA DA+sim
jvs017
(seen)    
Text: We have no influence on the Government's policy on the euro
jvs066
(seen)    
Text: These options include the possible merger or sale of the company.
jvs036
(unseen)
Text: Obviously, someone is not doing their job properly.
jvs084
(unseen)

English speaker, Japanese speech

Text: 少年時代は、ロシア帝国、チェルニーヒウ県、プルィルークィ郡、トロスチャヌィーツャ村で過ごした。
Reference Conv. Conv.+sim DA DA+sim
p228
(seen)    
Text: そして、インデペンデント紙の、読者投票で選ぶ、プレミアリーグ最優秀ゴールキーパーに選ばれた。
p238
(seen)    
Text: シャンチーの専業プロは、チームから支払われる給料と、対局費を、主な収入としている。
p265
(unseen)
Text: デッドキーは、タイプライターや、コンピュータのキーボードにおける、特殊な装飾キーである。
p339
(unseen)

The nearest cross-lingual speaker pair

Target speaker Conv. DA DA+sim
p231

jvs058

jvs090

jvs029

p277

jvs090

jvs061

jvs043

p303

jvs015

jvs038

jvs053