「Open JTalk」は名古屋工業大学の研究チームが作った、ライセンスフリーのLinux日本語音声合成エンジンです。
Open JTalkのオプション・パラメータを操作することで、色々な声でテキストを読み上げさせることができます。今回はこのパラメータをいろいろいじって、どんな声が出るのか実験してみました。
果たして究極の萌えボイスはできるのでしょうか!?
目次
Open Jtalkのボイス
Open Jtalkは標準の男性ボイスの他に、メイちゃんという可愛い女の子ボイスもインストールすることができます。
メイちゃんは感情別のボイスタイプ
・Normal(普通)
・Happy(嬉しい)
・Bashful(恥ずかしい)
・Angry(怒ってる)
・Sad(悲しい)
を指定することで、いろんな感情を込めて文章を読み上げをさせることが出来ます。
以下は各種感情別ボイスタイプを指定したときの音声です。
・Normal(普通)
・Happy(嬉しい)
・Bashful(恥ずかしい)
・Angry(怒り)
・Sad(悲しい)
OpenJtalkのパラメータ
「OpenJtalk」のコマンドを打つと以下のようなヘルプが表示されます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 |
# open_jtalk The Japanese TTS System "Open JTalk" Version 1.08 (http://open-jtalk.sourceforge.net/) Copyright (C) 2008-2014 Nagoya Institute of Technology All rights reserved. The HMM-Based Speech Synthesis Engine "hts_engine API" Version 1.09 (http://hts-engine.sourceforge.net/) Copyright (C) 2001-2014 Nagoya Institute of Technology 2001-2008 Tokyo Institute of Technology All rights reserved. Yet Another Part-of-Speech and Morphological Analyzer "Mecab" Version 0.996 (http://mecab.sourceforge.net/) Copyright (C) 2001-2008 Taku Kudo 2004-2008 Nippon Telegraph and Telephone Corporation All rights reserved. NAIST Japanese Dictionary Version 0.6.1-20090630 (http://naist-jdic.sourceforge.jp/) Copyright (C) 2009 Nara Institute of Science and Technology All rights reserved. open_jtalk - The Japanese TTS system "Open JTalk" usage: open_jtalk [ options ] [ infile ] options: [ def][ min-- max] -x dir : dictionary directory [ N/A] -m htsvoice : HTS voice files [ N/A] -ow s : filename of output wav audio (generated speech) [ N/A] -ot s : filename of output trace information [ N/A] -s i : sampling frequency [ auto][ 1-- ] -p i : frame period (point) [ auto][ 1-- ] -a f : all-pass constant [ auto][ 0.0-- 1.0] -b f : postfiltering coefficient [ 0.0][ 0.0-- 1.0] -r f : speech speed rate [ 1.0][ 0.0-- ] -fm f : additional half-tone [ 0.0][ -- ] -u f : voiced/unvoiced threshold [ 0.5][ 0.0-- 1.0] -jm f : weight of GV for spectrum [ 1.0][ 0.0-- ] -jf f : weight of GV for log F0 [ 1.0][ 0.0-- ] -g f : volume (dB) [ 0.0][ -- ] -z i : audio buffer size (if i==0, turn off) [ 0][ 0-- ] infile: text file [stdin] |
いっぱいパラメータがありますが、説明文を見てもなんだかよく意味が分かりません・・。
今回はとりあえず下記のパラメータに狙いをしぼって検証をしてみました。
「a: all-pass constant」(オールパス値)
「b: postfiltering coefficient」(ポストフィルター係数)
「r: speech speed rate<strong」(スピーチ速度係数)
「fm :additional half-tone」(追加ハーフトーン)
「u: voiced/unvoiced threshold」(有声/無声境界値)
「jm: weight of GV for spectrum」(スペクトラム系列内変動の重み)
「jf: weight of GV for log F0」(F0系列内変動の重み)
オールパス値の変化!
「a:オールパス値」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。
「a = 0.4」
「a = 0.5」
「a = 0.6」
「a = 0.7」
aの値が小さいとなんだかコロ助みたいな声になり、aの値が大きいとオカマのお姉さんのような声になるみたいです。a:0.5~0.6あたりが萌えボイスに近い気がします。
ポストフィルター係数の変化!
「b:ポストフィルター係数」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。
「b = 0.3」
「b = 0.6」
「b = 0.9」
bの値をいろいろ変えてみましが、なんだか違いがよく分かりません・・。bが1に近付くとなんだか音が割れてしまいます。一体なんなんでしょうかねこのパラメータは・・。
スピーチ速度係数の変化!
「r:スピーチ速度係数」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。
「r = 0.5」
「r = 1.0」
「r = 1.5」
rはスピーチ速度をコントロールする値のようですね。早口言葉をちゃんと話せてメイちゃんすごいです。
追加ハーフトーンの変化!
「fm:追加ハーフトーン」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。
「fm = -5.0」
「fm = 0.0」
「fm = 5.0」
「fm = 10.0」
fmを高くすると甲高い声で話すようになるようです。萌えボイスを探求する方だったら、やや大きな値にするのが丁度よさそうです。
有声/無声境界値の変化!
「u:有声/無声境界値」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。
「u = 0.3」
「u = 0.6」
「u = 0.9」
uの値もなんだか違いがよく分かりません。人間の耳で聞く分にはあんまし関係がないパラメータなのでしょうか・・。
スペクトラム系列内変動の重みの変化!
「jm:スペクトラム系列内変動の重み」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。
「jm = 1.0」
「jm = 1.5」
「jm = 2.0」
jmの値を高くするとなんだ音が割れてきてしまいます。音質に関するパラメータなのでしょうか。
F0系列内変動の重みの変化!
「jf:F0系列内変動の重み」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。
「jf = 0.1」
「jf = 1.0」
「jf = 2.0」
「jf = 3.0」
jfの値を高くすると抑揚をはっきり付けて話すようになるみたいです。感情が乏しいキャラなら小さい値、感情が豊かなキャラなら大きな値を入れるのがよさそうですね。
まとめ!
以上、メイちゃんのパラメータをいろいろいじってお話をさせてみました!
いろいろ試してみましたが、私はデフォルトのメイちゃん(Happy)の声が一番気に入りました。やはり人間飾らない素のままの声が一番ということなのでしょうか。
メイちゃんの他にも最近「初音ミクさん」のボイスファイルなども開発されたそうなので、そちらの方もちょっと気になります。そのうち調査を入れるかもしれません・・。
※本ページで使った音声生成ファイルは名古屋工業大学様からお借りしました。
HTS Voices Copyright (c) Nagoya Institute of Technology
参考サイト・参考文献:
参考Open JTalk公式ページ