男性両声類の女声らしさに関わる特徴量の分析

日本大学文理学部情報科学科北原研究室所属

長谷川 翔太




研究概要


近年、男性による女声のような発声(あるいはその逆)をエンターテイメントの一つとして行う人々が増加し、主に動画投稿サイトなどを通じて両声類の名で広く知られるようになった。
しかし、両声類の音声の、異性の声らしさに関する研究は進んでいない。
異性の声を出すことを目的とした研究に性同一性障害者 (Male to Female transsexuals, MtF) に対する支援に関するものがあるが、両声類はあくまでエンターテイメントを目的としており、自己の本来の声を維持したまま異性の声を出すものであり、目的が異なっている。
本研究では、男性の両声類に焦点を当て、彼らの、成人女性の自然な発声を目的とした女声の音声から抽出した音響特徴量とその音声に対するインターネット上での主観的評価との関係を分析し、主観的評価に影響を与えた音響特徴量について調べる。
音響特徴量を抽出し、複数の分類器で属性選択をした後に分類実験を行ったところ、記憶ベース推論を用いた分類では分類率が88%という高い結果を出し、この分類で用いられた音響特徴量について、線スペクトル対周波数 (LSP周波数) の6次元の第1-3四分位範囲の値が0.3以上の音声やLSP周波数の5次元の第1四分位数の値が1.4以下の音声などは高評価を得られた音声が多い傾向が見られた。
また、複数の分類器による属性選択で選ばれたLSP周波数の4次元の第3四分位数において、その値が1.4前後のものは高評価を得られた音声が多い傾向が見られた。
分類実験の結果から、MFCCやLSP周波数、およびそのΔ特徴量が分類に寄与することが分かった。
MFCCやLSP周波数は声道特性を表すパラメータであることから、スペクトルの情報が重要であると考えられるため、特に高い評価を得た話者と低い評価を得た話者の、典型的な音声の/e/の発音の周波数スペクトルに焦点を当てて調べたところ、フォルマント周波数の結果から、両話者ともに/e/の発音であることが想定され、低い評価を得た話者は、高い評価を得た話者より第2~4フォルマントが密集する傾向があった。
また、低い評価を得た話者は、高い評価を得た話者に比べてスペクトログラムが疎らであり、フォルマントの時間推移の起伏が激しい傾向があった。
MtFの関連研究において、声帯特性に関する記述が多かったため、話者毎の平均基本周波数についても調査したところ、高い評価を得た話者は200Hz~240Hz付近に多く分布し、300Hzを超える話者は成人女性の自然な発声に聞こえるという評価を得にくい傾向があることが分かった。



研究資料


卒業論文
2017年2月卒業研究論文 (pdfファイル)

卒業論文スライド
2017年2月卒業研究論文スライド (pdfファイル)

デモ動画