音声合成ソフトで動画にナレーションを入れるメリットと、おすすめソフト「VOICEPEAK」の使い方を解説

音声合成ソフトで動画にナレーションを入れるメリットと、おすすめソフト「VOICEPEAK」の使い方を解説

動画において「ナレーション」は、映像だけでは伝えきれない情報を補い、視聴者の理解を深めるための重要な要素です。

ナレーションを入れることで、動画の音だけ聞いて別の作業をしている「ながら見」のユーザーにも情報を届けることができますし、声のトーンや強弱、話すスピードによって映像の印象を大きく変化させる効果もあります。

しかし、毎回プロのナレーターに依頼するのは、コストや時間、スケジュール調整などの面で現実的ではないケースもありますよね。かと言って自分で録音するとクオリティが心配……と言う方も少なくないでしょう。

そんな課題を解決するのが、音声合成ソフトです。近年、AI技術の進歩により、高品質な音声合成ソフトが続々と登場しています。弊社でも動画広告を作る機会が増え、さまざまな音声合成ソフトを比較・検討しました。

本記事では、音声合成ソフトを利用するメリットから、弊社が導入した音声合成ソフト「VOICEPEAK」の特徴や他製品との比較、使い方まで詳しく解説します。


音声合成ソフトを利用するメリット

ナレーションを収録する方法は「自分で録音する」「プロに依頼する」「音声合成ソフトを利用する」の主に3つに分けられます。それぞれの特徴は以下の通りです。

ナレーションを収録する方法特徴こんな方におすすめ
自分で録音するスマホさえあればすぐに収録できる、1番手軽で費用が掛からない方法。ただしナレーションを読み上げるスキルが必要。・なるべく費用や時間をかけたくない
・クオリティの高いナレーションよりも、手作り感のある動画を目指したい
プロに依頼するプロの声優やナレーション制作会社、クラウドソーシングなどで依頼をし、収録してもらう方法。依頼したいナレーターや収録時間によっては費用が高くなることもあり。・サイトに掲載するPR用の動画や説明会など、今後長く使う動画を作りたい
・ブランドイメージを的確に表現してくれるナレーターを探している
・費用やスケジュールに余裕がある
音声合成ソフトを利用する入力したテキストを、音声合成ソフトに読み上げさせる方法。無料から有料まで多数のソフトがあり、どのソフトが適しているか選ぶのが大変。操作方法を覚える必要がある。・自分の読み上げスキルに自信がない
・音声合成ソフトの操作に抵抗がない
・今後何度もナレーションが必要になる

「機械音声は感情の起伏がなく淡々と文章を読み上げる」というイメージを持つ方もいるかもしれませんが、最近の音声合成ソフトは読み上げの性能が向上しており、高品質で滑らかな音声を手軽に作成できます。操作さえ覚えれば、いつでも安定した品質のナレーションが用意できるのは大きなメリットですよね。

ただし、いくら音声合成ソフトの性能が向上していると言っても、プロのナレーターに比べればまだまだ自然さや感情表現に欠けるという側面もあります。掲載するプラットフォームや動画の目的によっては音声合成ソフトでも違和感はありませんが、たとえば認知を目的としたプロモーション映像など、ブランディングを大切にしたい場合は、プロに依頼することも検討しましょう。

商用利用可能な音声合成ソフトの比較

「音声合成ソフト」と検索すると多数のソフトが出てきますが、無料の音声合成ソフトは声質が機械っぽかったり、商用利用NGだったりと、ビジネスで使用する際の懸念点もあります。

商用利用可能で、クオリティや操作性が高いソフトはたとえば以下のようなものがあります。

ソフトVOICEPEAK 商用可能6ナレータ―セットVoice SpaceCoeFont
声質7種類218種類10,000種類
感情表現ありなしなし
商用利用
操作性
価格¥29,800(買い切り)
※商用可能6ナレータ―セット
¥21,000/月Businessプラン
※年間一括払い
¥3,300/月
※Standardプラン

条件:法人・商用利用可能なプランを想定しています。

声の種類で言えば「Voice Space」や「CoeFont」の方が多いものの、VOICEPEAKは買い切りタイプが販売されており、長く使用することを考えるとクオリティとコストパフォーマンスの両面でバランスが取れたソフトだと考えます。ナレーターの読み上げが非常に自然で、機能もシンプルで初心者の方でも扱いやすいため、弊社クリエイティブチームでも利用しています。

ここからは、商用利用OKでビジネスでも使いやすい音声合成ソフト「VOICEPEAK」について紹介します。

音声合成ソフト「VOICEPEAK」とは?

VOICEPEAKは、株式会社AHSが提供するインストール型の音声合成ソフトウェアです。動画制作やアプリケーション、ゲームなどさまざまな用途で利用されています。

株式会社AHSは「SynthesizerV」や「VOCALOIDシリーズ」といった音楽家が使用するプロ仕様のソフトも販売しており、品質の評判も非常に高いです。

VOICEPEAKの特徴を以下4つの項目に分けて、説明していきます。

  • 高品質な日本語音声
  • カスタマイズ性が高い
  • 動作が軽く操作しやすい
  • 商用利用可能

高品質な日本語音声

VOICEPEAKは、日本語の発音やイントネーションに優れた音声合成を提供しています。自然な話し方で、プロのナレーターに近いクオリティでの生成が可能です。

弊社が導入した「商用可能6ナレーターセット」には6人のナレーター(男性3名と女性3名+おまけで女の子)の声が収録されており、さまざまな声のバリエーションで読み上げが行えるため、提案の幅を広げたり、動画の雰囲気に合わせて変えることも可能です。

男性1(落ち着いた声):[音声サンプル1]

男性2(ニュースキャスターのような声):[音声サンプル2]

男性3(若々しい声):[音声サンプル3]

女性1(優しい声):[音声サンプル4]

女性2(活発な声):[音声サンプル5]

女性3(大人っぽい声):[音声サンプル6]

女の子:[音声サンプル7]

カスタマイズ性が高い

VOICEPEAKには、音声の速度やピッチといった基本的な調整以外に、感情表現を加えることができる独自の設定があります。感情表現には「幸せ」「楽しみ」「怒り」「悲しみ」の4種類があり、0%~100%の値で調整して音声に反映させることができます。これらの感情表現はそれぞれをブレンド(例:幸せ70%、楽しみ50%)することができるので、より豊かな表現が可能です。

喜怒哀楽のサンプル

動作が軽く操作しやすい

直感的に操作できるインターフェースを備えており、複雑な手順も一切ないため、初めての方でも安心して利用することができます。

またアプリケーションを動かすためのパソコンの要求スペックも低いので、別途高性能なパソコンを用意する必要もありません。

商用利用可能

「VOICEPEAK 商用可能 ナレーターシリーズ」は、個人利用・教育機関・法人など、さまざまな商用・業務用途での利用が可能となっています。

しかし全ての用途で商用利用可能というわけではありません。以下の点が禁止事項とされているので注意が必要なので必ずご確認ください。

  • 他者の版権を侵害する行為
  • 第三者に依頼された内容の音声を代わりに作成し、提供する行為
  • 卑猥な表現・作品等に使用
  • 政治家・政党・政治団体による、自身あるいは自派での政治活動での使用
  • 特定の政治家・政党・党派・政治団体を宣伝する行為、または貶める行為
  • VOICEPEAKの音声を使った作品に声優名を使う

VOICEPEAKの操作方法

ここからは「VOICEPEAK商用可能6ナレーターセット」を使って、以下のナレーションを作る手順を解説していきます。

アナグラム株式会社、ナレーション

STEP1:ナレーターを選択

デフォルトでは「女性1」のナレーターが設定されていますが、画像の①をクリックすると他のナレーターに変更できます。ナレーター変更はいつでも変更可能なので、文章を読み上げて雰囲気に合うナレーターを選択しましょう。

サンプルのナレーションでは明るく誠実な印象を与えたかったので、「女性1」を選択しています。

STEP2:文章を入力

②に直接文章を入力、あるいは既に原稿がある場合はコピー&ペーストで簡単に入力できます。文字によっては上手く発音できないケースや読み間違えてしまうケースもあります。そうした場合は「ひらがな」や「カタカナ」に変換することで改善されることがあります。

「Enter」を押すことで別のブロックとして文章を作成することができます。

ブロックを分けておくと、話す順番を入れ替えたり、STEP3以降の調整や保存もブロック単位で行えるので便利です。

STEP3:速さやピッチ、ポーズ、音量など声の質感を調整

「デフォルトのままだと喋りの速さが遅く感じる」「声のトーンをもう少し高くしたい」など、ナレーターの声の質感を変化させたい場合は③で調整しましょう。

SNS広告用の動画では、限られた尺の中で多くの文章を読ませる必要があるため、「速さ」の調整をすることが多々あります。「ピッチ」は声の高さ、「ポーズ」は改行や句読点の時の休止時間を意味します。

STEP4:声の感情表現を調整

④の「感情」という項目で「幸せ」「楽しみ」「怒り」「悲しみ」の4種類のパラメーターが調整可能です。おすすめは「幸せ」「楽しみ」のパラメーターで、値を約20〜50%でブレンドすると、通常よりもややピッチが高い状態になりハッキリした口調に聞こえます。デフォルトではすべての値が0%になっています。

STEP5:「アクセント」「イントネーション」「長さ」を1文字づつ調整

文章を読み上げた際に、特定のセリフで違和感や不自然と感じる場合は⑤で調整します。特に「イントネーション」はよく使われる機能で、より人間らしい表現、例えば方言を表現したい場合などにも活用できます。

アクセント折れ線グラフの様な点の部分をドラッグすると変更できます。アクセントを付ける場合は上に、付けない場合は下に設定します。
イントネーション折れ線グラフの様な点の部分をドラッグすると変更できます。数値化されていないので難しいですが、声を確認しながら感覚で上下に動かします。イントネーションを上げたい場合は上に、下げたい場合は下に調整します。
長さオレンジ枠を左右にドラッグ、もしくは下の数値(-50~100%)を直接入力すると変更できます。値が小さい程短く、大きい程長く発音します。

STEP6:保存・書き出し

保存は上部⑥のをクリックし、「プロジェクトの保存」もしくは「名前を付けてプロジェクトを保存」を押します。書き出しは「出力」をクリックします。

VOICEPEAKで出力できる形式は以下です。

フォーマット.wav(無圧縮)、.flac(可逆圧縮)
サンプルレート44100 Hz(CD規格)
48000 Hz(DAT、DVD規格)
96000 Hz(ハイレゾ)

さいごに

機械音声は一定のイントネーション・速度で淡々と話すイメージがあったので、はじめて音声合成ソフトを使ったときは「こんなに自然に話せるのか!」と驚きました。AIの発展は凄まじいので、紹介したソフトの性能向上はもちろん、ビジネスで使いやすい新たなソフトが出現するなど今後も選択肢が増えていくことが期待できます。

最後に、VOICEPEAKを使い長めのサンプルナレーションを制作してみたので、ぜひ検討材料のひとつとしてお使いください。

洗顔フォームの広告ナレーション(ナレーター:男性1)

「自分で録音する」または「プロに依頼する」場合の流れやポイントを知りたい方は、以下の記事をご参照ください。

関連記事

SNS投稿や動画広告に活かせる!ナレーションの効果的な使い方と3つの収録方法
SNS投稿や動画広告に活かせる!ナレーションの効果的な使い方と3つの収録方法
続きを見る
静止画素材を活用して動画を作れる!?広告運用者でも簡単に動画クリエイティブ作る方法3選
静止画素材を活用して動画を作れる!?広告運用者でも簡単に動画クリエイティブ作る方法3選
続きを見る
動画広告の制作に大切な「絵コンテ」の作り方と注意するべきこと
動画広告の制作に大切な「絵コンテ」の作り方と注意するべきこと
続きを見る