萌え声を探せ!Open JTalkのパラメータをいろいろ変化させてみた!

  • このエントリーをはてなブックマークに追加

mei

「Open JTalk」は名古屋工業大学の研究チームが作った、ライセンスフリーのLinux日本語音声合成エンジンです。

Open JTalkのオプション・パラメータを操作することで、色々な声でテキストを読み上げさせることができます。今回はこのパラメータをいろいろいじって、どんな声が出るのか実験してみました。

果たして究極の萌えボイスはできるのでしょうか!?

Open Jtalkのボイス

Open Jtalkは標準の男性ボイスの他に、メイちゃんという可愛い女の子ボイスもインストールすることができます。

メイちゃんは感情別のボイスタイプ

・Normal(普通)
・Happy(嬉しい)
・Bashful(恥ずかしい)
・Angry(怒ってる)
・Sad(悲しい)

を指定することで、いろんな感情を込めて文章を読み上げをさせることが出来ます。
以下は各種感情別ボイスタイプを指定したときの音声です。

・Normal(普通)

・Happy(嬉しい)

・Bashful(恥ずかしい)

・Angry(怒り)

・Sad(悲しい)

OpenJtalkのパラメータ

「OpenJtalk」のコマンドを打つと以下のようなヘルプが表示されます。


いっぱいパラメータがありますが、説明文を見てもなんだかよく意味が分かりません・・。
今回はとりあえず下記のパラメータに狙いをしぼって検証をしてみました。

「a: all-pass constant」(オールパス値)
「b: postfiltering coefficient」(ポストフィルター係数)
「r: speech speed rate<strong」(スピーチ速度係数)
「fm :additional half-tone」(追加ハーフトーン)
「u: voiced/unvoiced threshold」(有声/無声境界値)
「jm: weight of GV for spectrum」(スペクトラム系列内変動の重み)
「jf: weight of GV for log F0」(F0系列内変動の重み)

オールパス値の変化!

「a:オールパス値」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。

「a = 0.4」

「a = 0.5」

「a = 0.6」

「a = 0.7」

aの値が小さいとなんだかコロ助みたいな声になり、aの値が大きいとオカマのお姉さんのような声になるみたいです。a:0.5~0.6あたりが萌えボイスに近い気がします。

ポストフィルター係数の変化!

「b:ポストフィルター係数」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。

「b = 0.3」

「b = 0.6」

「b = 0.9」

bの値をいろいろ変えてみましが、なんだか違いがよく分かりません・・。bが1に近付くとなんだか音が割れてしまいます。一体なんなんでしょうかねこのパラメータは・・。

スピーチ速度係数の変化!

「r:スピーチ速度係数」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。

「r = 0.5」

「r = 1.0」

「r = 1.5」

rはスピーチ速度をコントロールする値のようですね。早口言葉をちゃんと話せてメイちゃんすごいです。

追加ハーフトーンの変化!

「fm:追加ハーフトーン」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。

「fm = -5.0」

「fm = 0.0」

「fm = 5.0」

「fm = 10.0」

fmを高くすると甲高い声で話すようになるようです。萌えボイスを探求する方だったら、やや大きな値にするのが丁度よさそうです。

有声/無声境界値の変化!

「u:有声/無声境界値」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。

「u = 0.3」

「u = 0.6」

「u = 0.9」

uの値もなんだか違いがよく分かりません。人間の耳で聞く分にはあんまし関係がないパラメータなのでしょうか・・。

スペクトラム系列内変動の重みの変化!

「jm:スペクトラム系列内変動の重み」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。

「jm = 1.0」

「jm = 1.5」

「jm = 2.0」

jmの値を高くするとなんだ音が割れてきてしまいます。音質に関するパラメータなのでしょうか。

F0系列内変動の重みの変化!

「jf:F0系列内変動の重み」を変化させたときの声です。ボイスタイプは「mei_normal.htsvoice」を使用しています。

「jf = 0.1」

「jf = 1.0」

「jf = 2.0」

「jf = 3.0」

jfの値を高くすると抑揚をはっきり付けて話すようになるみたいです。感情が乏しいキャラなら小さい値、感情が豊かなキャラなら大きな値を入れるのがよさそうですね。

まとめ!

以上、メイちゃんのパラメータをいろいろいじってお話をさせてみました!

いろいろ試してみましたが、私はデフォルトのメイちゃん(Happy)の声が一番気に入りました。やはり人間飾らない素のままの声が一番ということなのでしょうか。

メイちゃんの他にも最近「初音ミクさん」のボイスファイルなども開発されたそうなので、そちらの方もちょっと気になります。そのうち調査を入れるかもしれません・・。

※本ページで使った音声生成ファイルは名古屋工業大学様からお借りしました。
HTS Voices Copyright (c) Nagoya Institute of Technology

参考サイト・参考文献:
参考Open JTalk公式ページ

  • このエントリーをはてなブックマークに追加

コメントをどうぞ

メールアドレスが公開されることはありません。