关于研究的一些思考
好的讲故事的人会有合适的表达方式,能够吸引读者的注意力和兴趣。 那么表达是基于故事文本和结构的,比如读到一件突然发生的事情,讲故事的人会制造出紧张或者悬疑suspense的语气(speaking style)。
我们的目标
给我们故事的文本,合成讲的好的故事
如何定义讲得好的故事?
好的合成系统应该是在文本一定的时候,合成
一般来说,演员讲故事会有比较高的水平。但是不同的人会有不同的方式去表达同一个故事,比如为了表达“他打开盒子,突然,盒子里出现一个巨大的动物”,这一句话,演员A会选择强调“巨大的”(emphasis),演员B可能会选择强调突然,演员C可能就是平铺直叙出来。那么如何判断哪个的故事讲得好? 可以让多个人讲同一个故事,然后进行感知测试。对于主观测试分数比较高的人进行声学和韵律分析。
如何选择合适的情感模型
选用6种基本模型还是使用dimension model()
数据的异质性表现在很多层面,我的研究侧重点在于说话方式
不同人表达情感的方式不一样
比如说,说话者A表达一种happy侧重于节奏,rhythm,那么会加快语气。而说话者B表达happy会侧重于intensity,会提高音量。 同样的说话者本身还有各种各样的不同,那么数据会变得极其异质性。
异质数据的混合训练
简单来说,不同说话人的不同在于很多层面,混合两个人的语音在一起训练,结果自然两个人都不相似。同样的,混合两种两种情感在一起训练,自然两种情感都不像,或者像某一种情感。
1。传统的rule based approach
分析数据库,得到表达这种情感的声学特征,然后进行修改neutral的语音,使其拥有这方面的特征。得到了这种情感
2。data driven
1.通过感知实验得到统一风格的数据,训练某一种风格的数据,得到这种风格的语音。
问题:
1。如何确定统一风格?无监督风格聚类还是情感模型
2。如何确定合适的训练手段
测评 evaluation
对于实验结果的测试,如何设计合适的手段去测试得到的合成语音
从语言学的角度来讲,我们的phoneme和sp特征有很大的关联性,从而确保了我们TTS的可行性,因为我们有比较好的pronunciation prediction model
与传统的情感语音合成不同
我们需要结合相关的语言学去合成,比如对于特定的词汇要选择加重和prominence,尤其是adj adv 可以增加相应的效果。