萌え声を探せ！Open JTalkのパラメータをいろいろ変化させてみた！

「Open JTalk」は名古屋工業大学の研究チームが作った、ライセンスフリーのLinux日本語音声合成エンジンです。

Open JTalkのオプション・パラメータを操作することで、色々な声でテキストを読み上げさせることができます。今回はこのパラメータをいろいろいじって、どんな声が出るのか実験してみました。

果たして究極の萌えボイスはできるのでしょうか！？

1 Open Jtalkのボイス
2 OpenJtalkのパラメータ
3 オールパス値の変化！
4 ポストフィルター係数の変化！
5 スピーチ速度係数の変化！
6 追加ハーフトーンの変化！
7 有声/無声境界値の変化！
8 スペクトラム系列内変動の重みの変化！
9 F0系列内変動の重みの変化！
10 まとめ！

Open Jtalkのボイス

Open Jtalkは標準の男性ボイスの他に、メイちゃんという可愛い女の子ボイスもインストールすることができます。

メイちゃんは感情別のボイスタイプ

・Normal（普通）
・Happy（嬉しい）
・Bashful（恥ずかしい）
・Angry（怒ってる）
・Sad（悲しい）

を指定することで、いろんな感情を込めて文章を読み上げをさせることが出来ます。
以下は各種感情別ボイスタイプを指定したときの音声です。

・Normal（普通）

・Happy（嬉しい）

・Bashful（恥ずかしい）

・Angry（怒り）

・Sad（悲しい）

OpenJtalkのパラメータ

「OpenJtalk」のコマンドを打つと以下のようなヘルプが表示されます。

# open_jtalk
The Japanese TTS System "Open JTalk"
Version 1.08 (http://open-jtalk.sourceforge.net/)
Copyright (C) 2008-2014 Nagoya Institute of Technology
All rights reserved.

The HMM-Based Speech Synthesis Engine "hts_engine API"
Version 1.09 (http://hts-engine.sourceforge.net/)
Copyright (C) 2001-2014 Nagoya Institute of Technology
              2001-2008 Tokyo Institute of Technology
All rights reserved.

Yet Another Part-of-Speech and Morphological Analyzer "Mecab"
Version 0.996 (http://mecab.sourceforge.net/)
Copyright (C) 2001-2008 Taku Kudo
              2004-2008 Nippon Telegraph and Telephone Corporation
All rights reserved.

NAIST Japanese Dictionary
Version 0.6.1-20090630 (http://naist-jdic.sourceforge.jp/)
Copyright (C) 2009 Nara Institute of Science and Technology
All rights reserved.

open_jtalk - The Japanese TTS system "Open JTalk"
  usage:
       open_jtalk [ options ] [ infile ]
  options:                                                                   [  def][ min-- max]
    -x  dir        : dictionary directory                                    [  N/A]
    -m  htsvoice   : HTS voice files                                         [  N/A]
    -ow s          : filename of output wav audio (generated speech)         [  N/A]
    -ot s          : filename of output trace information                    [  N/A]
    -s  i          : sampling frequency                                      [ auto][   1--    ]
    -p  i          : frame period (point)                                    [ auto][   1--    ]
    -a  f          : all-pass constant                                       [ auto][ 0.0-- 1.0]
    -b  f          : postfiltering coefficient                               [  0.0][ 0.0-- 1.0]
    -r  f          : speech speed rate                                       [  1.0][ 0.0--    ]
    -fm f          : additional half-tone                                    [  0.0][    --    ]
    -u  f          : voiced/unvoiced threshold                               [  0.5][ 0.0-- 1.0]
    -jm f          : weight of GV for spectrum                               [  1.0][ 0.0--    ]
    -jf f          : weight of GV for log F0                                 [  1.0][ 0.0--    ]
    -g  f          : volume (dB)                                             [  0.0][    --    ]
    -z  i          : audio buffer size (if i==0, turn off)                   [    0][   0--    ]
  infile:
    text file                                                                [stdin]

# open_jtalk

The Japanese TTS System "Open JTalk"

Version 1.08 (http://open-jtalk.sourceforge.net/)

The HMM-Based Speech Synthesis Engine "hts_engine API"

Version 1.09 (http://hts-engine.sourceforge.net/)

2001-2008 Tokyo Institute of Technology

Yet Another Part-of-Speech and Morphological Analyzer "Mecab"

Version 0.996 (http://mecab.sourceforge.net/)

2004-2008 Nippon Telegraph and Telephone Corporation

NAIST Japanese Dictionary

Version 0.6.1-20090630 (http://naist-jdic.sourceforge.jp/)

open_jtalk - The Japanese TTS system "Open JTalk"

usage:

open_jtalk [ options ] [ infile ]

options: [ def][ min-- max]

-x dir : dictionary directory [ N/A]

-m htsvoice : HTS voice files [ N/A]

-ow s : filename of output wav audio (generated speech) [ N/A]

-ot s : filename of output trace information [ N/A]

-s i : sampling frequency [ auto][ 1-- ]

-p i : frame period (point) [ auto][ 1-- ]

-a f : all-pass constant [ auto][ 0.0-- 1.0]

-b f : postfiltering coefficient [ 0.0][ 0.0-- 1.0]

-r f : speech speed rate [ 1.0][ 0.0-- ]

-fm f : additional half-tone [ 0.0][ -- ]

-u f : voiced/unvoiced threshold [ 0.5][ 0.0-- 1.0]

-jm f : weight of GV for spectrum [ 1.0][ 0.0-- ]

-jf f : weight of GV for log F0 [ 1.0][ 0.0-- ]

-g f : volume (dB) [ 0.0][ -- ]

-z i : audio buffer size (if i==0, turn off) [ 0][ 0-- ]

infile:

text file [stdin]

いっぱいパラメータがありますが、説明文を見てもなんだかよく意味が分かりません・・。
今回はとりあえず下記のパラメータに狙いをしぼって検証をしてみました。

「a: all-pass constant」（オールパス値）
「b: postfiltering coefficient」（ポストフィルター係数）
「r: speech speed rate<strong」（スピーチ速度係数）
「fm :additional half-tone」（追加ハーフトーン）
「u: voiced/unvoiced threshold」（有声/無声境界値）
「jm: weight of GV for spectrum」（スペクトラム系列内変動の重み）
「jf: weight of GV for log F0」（F0系列内変動の重み）