第30卷第11期 2013年11月 计算机应用研究 Application Research of Computers Vol_30 No.11 NOV.2013 面向语音合成的藏语单音素与三音素 自动切分算法研究术 张金溪 ,李永宏 ,单广荣 ,李照耀 ,江摘静 (西北民族大学a.中国民族语言文字信息技术重点实验室;b.数学与计算机科学学院,兰州730030) 要:在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分 方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程 度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自 动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。 关键词:语音合成;藏语语料库;单音素;三音素;自动切分 中图分类号:TP391.1 文献标志码:A 文章编号:1001—3695(2013)11—3272—04 doi:10.3969/j.issn.1001—3695.2013.11.016 Facing speech synthesis for Tibetan single phoneme and triphone automatic cutting algorithms study ZHANG Jin—xi ,LI Yong—hong ,SHAN Guang—rong ,LI Zhao—yao ,JIANG Jing (a.Key Laboratory of China’s National Linguistic Information Technology,b.Mathematics&Computer Science Institute,Noahwest University r Nationalities,Lanzhou 730030,China) Abstract:This paper introduced two methods for phoneme segmentation in Tibetan speech synthesis corpus construction:one was the automatic segmentation method Which was based on the mono prime HMM model,the other was the automatic segmen— ration method which was based on the triphone HMM mode1.As the analysis to the accuracy of the two HMM automatic seg— mentation results.it shows that the first method’S accuracy is 80.69%and the second method’S is 88.74%.The experimen— tal results show that segmentation method of the triphone HMM model accuracy is obviously higher than the other.With this method,the accuracy and consistency of the speech corpus has been greatly improved. Key words:speech synthesis;Tibetan corpus;monophonic prime;triphone;automatic segmentation 藏语语料库的建设包括语料库的设计、录音、音段切分以 及标注等工作。只有设计一个完备的语料库才能为不同的工 程语音学来服务,而一个语料库设计的科学性表现在语料内容 的选取,针对于藏语拉萨话来说,要考虑具有音联结构、声调、 型的特征选择、模型参数和模型聚类进行了优化。文献[2]提 出一个新颖的单流多状态动态贝叶斯网络(single s ̄eam multi— states dynamic Bayesian network,SM—DBN)模型,以实现大词汇 量连续语音识别和音素切分。这些改进在不同程度上提高了 音素切分的准确率。 基于三音素HMM模型的自动切分 与基于单音素HMM 模型的自动切分相比,最大的不同是在训练过程中加入了切分 语调模式、语流音变这些现象的藏语内容。在构建藏语大语料 库时,要对大量的语音进行切分和标注工作,这时需要切分标 注者的高度集中注意力,这样才能确保切分标注的可靠性。在 对藏语语音进行音素切分时可以采用基于单音素HMM模型 或多音素HMM模型的自动切分。两音素HMM模型只考虑了 基元的上下文相关信息,在切分之前进行了HHed模型预测 (HHed是HTK工具包中直接对HMM模型进行各种编辑和优 后一个音素,无法像三音素那样考虑上下文,导致切分不准确; 对于超过三音素的模型由于模型数据庞大,建模繁琐,因此本 化操作的工具,用该工具事先对模型中的均值、方差、权重设定 一个初值),这在很大程度上提高了切分准确率。基于人工切 文采用单音素HMM模型与三音素HMM模型。为了达到语音 语料库标注信息的一致性和准确度,节省大量的人力精力,本 文分别考虑采用基于单音素HMM模型的自动切分方法和基 分标注方法存在一些不足,单音素HMM模型切分正确率有待 进一步提高等问题,本文有必要通过实验对比找出一种更好的 藏语拉萨话音素自动切分方法。 于三音素HMM模型的自动切分方法作音素切分准确率对比 实验。 1 数据准备 基于单音素HMM模型的自动切分方法的数据准备,包括 文献[1]针对英文语音库中音素边界的切分,对HMM模 收稿日期:2013.02.26;修回日期:2013-03—28 务费专项项目(ycx12024) 基金项目:国家自然科学基金资助项目(61262052);西北民族大学高校基本科研业 作者简介:张金溪(1985一),男,山东沂水人,硕士研究生,主要研究方向为语音合成(happyOhappy@163.con);李永宏(1979-),副教授,博士 (后),主要研究方向为实验语音学;单广荣(1956-),教授,博士,主要研究方向为网络数据库和教字图书馆;李照耀(1986一),男,硕士研究生,主要 研究方向为语音识别;江静(1988一),女,硕士研究生,主要研究方向为复杂网络中的免疫理论. 第1l期 张金溪,等:面向语音合成的藏语单音素与三音素自动切分算法研究 ・3273・ 语料库的文本设计、语料的录音要求以及音素列表的确定等。 元音也在该系统中考虑在内,后接其他元音中包括辅音韵尾以 接下来就是模型训练,将单音素模型训练为三音素模型,但是 在模型训练前的一个非常重要的工作就是对上下文属性和问 及双元音的[iu儿au] 。参考文献[9~12]初步拟定发音信 息标注如表2所示。 表2发音信息标注表 题集进行设计。其中上下文属性设计则需要综合所有参数的 变化特性来设计 ;设计问题集是用于各种声学参数(基频、 时长和谱参数)决策树的生成,因此需要针对不同的参数变化 特性来设计对应的决策树问题集。 1.1 语料库的文本设计 语料设计的一个重要原则是用尽量少的语料覆盖尽可能 多的自然语言现象。本语料库的设计兼顾到了音段和韵律的 两个层次,在语料选择时考虑了声调的组合、音段的音联现象、 清浊搭配、语句的持续时间等。本文中的原始文本语料选自 2007年的《日报》文本,语料覆盖了不同音节间的两音子 和大部分的三音子。在韵律方面,该语料满足了二、三、四音节 组中的各种组合,包含了广泛的藏语句型。本文暂时采用在业 界流行的Greedy算法作为选择语料的依据,对大量的文本进 行搜索,对每句话进行打分,打分标准综合考虑各种因素而制 定,对得分满足条件的语句选入语料库。最终确定了2 000句 作为录音的文本。 1.2语料库的录音 录音人员为专业水平的播音员,拉萨话口音的青年人;采 样率16 K,精度16位,单通道录音,录音软件Audition,录音文 件.wav格式;要求正常语速,平均6—7音节/秒;正常语调,不 带有任何情感录音。 1.3音素列表的确定 音素列表的确定是基于西北民族大学中国民族语言文字 信息技术重点实验室设计的SAMPA—ST_6j,在此基础上加上长 短静音sil(句间停顿)和sp(句中停顿),如表1所示。 表1 自动音段切分中使用的音素列表及其对应的代表符号 1.4上下文属性的设计 上下文属性也称之为语境信息的标注,其目的是为了实现 HMM模型由上下文无关模型转换为上下文相关模型,设计将 从发音信息和韵律层级信息两个方面进行描述。 发音信息的标注主要是指当前音素的发音特征情况以及 当前音素所在音节的声调。本文以藏语拉萨话为研究对象,拉 萨话声母主要是指单辅音声母,包括塞音9个,塞擦音6个,擦 音6个,鼻音、边音、喉塞音以及半元音共28个辅音音位 。 将上述28个音位按照发音方法共分为塞音、鼻音、塞擦音等六 类,按照发音部位可以分为双唇音、舌根音、喉音等九类。另 外,还包括清浊、送气与不送气的对立。藏语拉萨话的韵母按 照元音的发音特征中的舌位前后、唇形的圆展可分为八个基本 元音([a][i][u][e][o][s][Y][0])。此外,喉化元音、鼻化 本文中的韵律层级结构依次为音素(segment)、音节(syl— lable)、韵律词(word)、韵律短语(phrase)以及句子(utterance)。 对于彼此之间的关系描述包括位置信息和个数信息 ,将其 应用于藏语的HTS的标注文件的生成,同时为问题集的设计 打下基础,实现HMM的模型训练部分的决策树聚类。参考文 献[9—12]拟定韵律信息描述及符号表示如表3所示。 表3韵律信息标注表 信息描述 符号表示 当前(左/右)音节音素个数 C(L/R)-Syl—Num—Segs==x 当前(左/右)词语音节个数 C(L/R)一Word—Num…Syls x 当前(左/右)短语中音节个数 C(L/R)-Phrase—Num…Syls X 当前(左/右)短语中词的个数 C(L/R)一Phrase—Num—Words==X 当前音节(韵律词/韵律短语) 音素个数 C—Syl(word/phrase)一Num—Segs==x 当前句中音素(音节/韵律词/ 韵律短语)个数 Num-Seg(Syl/Word/Phrase)一in—Utt==X 当前音素位于音节的前向(后 向)位置 PosC—Segin—C-Syl(Fw/Bw)==x 当前音素所在韵律词位于句中 的前向(后向)位置 PosC—Wordin—_—Utt(Fw/Bw)==x 当前音素所在韵律短语位于旬 中的前向(后向)位置 PosC-Phrase—inUtt(Fw/Bw)==X 当前音素所在韵律词位于韵律 短语的前向(后向)位置 PosC-Wordin———C—Phrase(Fw/Bw)==x 当前音素所在音节位于句子的 前向(后向)位置 PosC—Sylin———Utt(Fw/Bw)==x 当前音素所在音节位于韵律词 的前向(后向)位置 PosC—Syl——in—C-Word(Fw/Bw)==X。 当前音素所在音节位于韵律短 语的前向(后向)位置 Pos—C-Syl_inC—Phrsae(Fw/Bw)==x 通过上述发音信息以及韵律信息的描述,结合Praat韵律 标注的结果,将文本文件转换为上下文相关的.1ab标注文件, .1ab文件是Linux系统下HTS开源平台可识别的文件格式。 一个语音文件对应一个.1ab格式文件,一行标注内容表示一个 音素的所有上下文信息,一句话包含多少音素,lab文件就有多 少行。 举例如下: 原始文本: 母 菩 拉丁转写:sa aw ka fjaa pa aj td aj ka ka oj xa aj ng th uj tj OW ka aj pa xa aj ng sa ijaa xa uj ng na aj ng tt uj ka tq aj xa il ta uj th aa tj ij ng 音素ka在lab文件中的描述:sa aw—ka+fjaa=pa@l_2/A: 22—2@8%2&18-1#4 1 1:6@1+2&2_6/B:22=47@3I4/C:9= 19/D:6+2/E:2%2&0=3}O/F:0#10 ̄2@3 1 fjaa 第11期 张金溪,等:面向语音合成的藏语单音素与三音素自动切分算法研究 ・3275・ 表5基于单音素HMM模型的自动切分结果 现基于三音素HMM模型的自动切分方法要优于基于单音素 乩 ∞ HMM模型的自动切分方法。虽然基于三音素HMM模型的自 n 动切分率有较大程度的提高,但是考虑到藏语语音信号的复杂 7 7 8 9 性,在处理过程中也将使用不同的方法,所以只对谱参数进行 三音素HMM建模远远不能解决一些实际的藏语语音现象。姗 挪 接下来是进行三音素HMM模型自动切分实验。同样使 因此,基于三音素HMM模型自动切分出的结果或多或少会存 口: 用前面的1 300个藏语句子作为训练数据,用之前的那100个 在一些不足,为了使其切分准确度更高,掰 需要对切分结果进行 句子作为测试。统计方法和单音素HMM模型一样。三音素 后期处理。例如,可以根据能量和过零率对某些清浊边界进行 8 8 9 自动切分误差范围统计如表6所示,各音素时间段的误差范围 适当调整;对sp(句中停顿)边界进行适当调整、添加或删 7 5 1 4 6 如表7所示。 除等。 ∞ ∞ 表6基于三音素HMM模型的自动切分误差范围统计 参考文献: },● 8 8 9 O 句子 音素对 人工切分时间/s 自动切分时间/s [1]王丽娟,曹志刚.基于HMM模型的语音单元边界的自动切分 误差范围 序号 应符号 开始 结束 开始 结束 W/ms [J].数据采集与处理,2005,20(4):381-384. 时间t1 时间t2 时间 时间 [2] 吕国云,蒋冬梅,张艳宁,等.基于动态贝叶斯网络的大词汇量连 1.O00 1.865 1.000 1.885 20 续语音识别和音素切分研究[J].西北工业大学学报,2008,26 5 如 1.865 2.945 1.885 2.973 8 (2):173-178. 0o1 2.945 3.330 2.973 3.363 5 [3] 阿依木尼萨・胡甫尔.维吾尔语连续语音流中音素的自动切分 3.330 4.324 3.363 4.357 O 算法研究与实现[D].乌鲁木齐:大学,2011. 4.324 5.514 4.357 5.557 10 [4] Htkbook[EB/OL].http://users.ece.gatech.edu/~antonio/htk- book/htkbook.htm1. [5] 张继勇.汉语语音识别中声学建模及参数共享策略的研究[D]. 北京:清华大学,2001:53-56. [6] GAO Lu,YU Hong—zhi,LI Yong—hang,et a1.Study on SAMPA—ST for 100 Lhasa Tibetan and realization of automatic labelling system[C]//Pmc of International Conference on Image Analysis and Signal Processing. aj 19.740 21.030 20.04 21.335 5 2010:133—137. [7] 高璐,于,郑文思.基于HMM的藏语拉萨话语音合成技术研 究[J].西北民族大学学报:自然科学版,2011,32(2):30.35. [8] 格桑居冕,格桑央京.藏语方言概论[M].北京:民族出版社, 2002. [9] HTS[EB/OL].http://hts.sp.nitech.ac.jp/. [10] ZEN H,TOKUDA K,MASUKO T,et a1.Hidden semi-Markov model 允许的平均误差范围 = 11・24 ms)总的平均 based speech synthesis[C]//Proc of the 8th International Conference on Spoken Language Processing.2004. ——lO11 RIt 切分准确度 =而i=88・74%。 [11] ZEN H.Fundamentals and recent advances in HMM・based speech ; synthesis[EB/OL].http://lorien.die.upm.es/~lapiz/rtth/JOR・ 由上述数据对比得知,基于三音素HMM模型的自动切分 NADAS/VI/pdfs/0049.pdf. 准确度和一致性比基于单音素HMM模型的要高,因此在构建 [12] TOKUDA K,YOSHIMURA T,TAKASHI M,et a1.Speech parame— 藏语语料库时通过三音素HMM模型自动切分可以大大提高 ter generation algorithms for HMM—based speech synthesis[C]//Proc 准确性。 of IEEE Intemational Conference on Acoustics,Speech,and Singal Processing.2000:1315.1318. 4结束语 [13]吴义坚.基于隐马尔可夫模型的语音合成技术研究[D].合肥:中 本文对藏语音素采用两种自动切分方法进行实验对比,发 国科学技术大学,2006. (上接第3271页) 算机应用研究,2010,27(7):2520—2522. 参考文献: [6] ZHOU Kang,TONG Xiao-jun,XU Jin.Closed circle DNA algorithm of [1]张桂刚,李超,张勇,等.一种基于海量信息处理的云存储模型研 change positive—weighted Hamilton circuit problem[J].Journal of 究[J].计算机研究与发展,2012,49(s1):32-36. Systems Engineering and Electronics,2009,20(3):636—642. [2]刘蓉.基于GSI的网格授权网络安全体系研究与实现[J].信息安 [7] HE Sheng—xue,FAN Bing—quan.Generlaized wardrop principle and its 全与技术,2012,3(5):28—32. application in regional transportation[J].Trans on Research Re- [3]朱珠.基于Hadoop的海量数据处理模型研究和应用[D].北京: cord,2008,5(1):49—56. 北京邮电大学,2008. [4]苏频.基于DFS的并行粒度计算模型及其应用[D].苏州:苏州 [8] ZHOU Kang,GAO Zun—hai,XU Jin.An algorithm of DNA computing 大学,2007. on 0—1planning problem[J].Advances in Systems Science and [5]温重伟,李荣均.改进的粒子群优化模糊C一均值聚类算法[J].计 Applications,2005,5(4):587—593.