2024.01.04 2024.12.31

声をAIで変換(ボイチェン)できる『RVC』とは？導入方法やリアルタイム変換のやり方

ryo

声を変えることができたら、どんなことが可能になるでしょう？『RVC』は、そんな夢を実現する最新のAIボイスチェンジャーです。この記事では、RVCの基本から導入方法、リアルタイムでの使用方法までをわかりやすく解説します。
動画のナレーションやVtuberなどの配信活動、日常のコミュニケーションまで、RVCが開く新たな可能性を一緒に探ってみましょう。

また、TEAM HENSHINではRVC制作代行も承っています。
設定に行き詰まったり、動画配信等で理想の声を使いたい方は
お気軽にご相談ください！

Team HENSHINではRVCの導入サポートや学習済みモデルの制作も承っております。詳細については、記事のまとめ部分をご覧ください。

声をAIで変換!? RVCとは？

RVC（Retrieval-based-Voice-Conversion）は、最新のAI技術を活用した声変換ツールです。中国で開発されたため、UIは中国語で記載されていますが、日本語での説明もされています。

AIに音声データを渡すことで音声の特徴を学習させ、音声データを変換することが可能です。リアルタイムでの声を変換することもでき、様々なシチュエーションでの活用が期待されています。

他のボイチェンとの違い

他のボイチェンでは、ディープラーニングの仕組みを活用しているなど、そもそもの仕組みが異なります。

RVCではAIが処理をすることで、高品質かつ学習時間の短さが大きなポイントです。環境さえ揃えれば、誰でも無料で使える点も強みと言えるでしょう。

RVCの用途やメリット

便利なRVCですが、どのように活用できるのでしょうか。ここでは、RVCの用途やメリットについてご紹介します。

誰でもナレーターになれる

RVCを使用することで、プロフェッショナルなナレーションが必要な場面にも対応できます。たとえば、YouTube広告やSNSにアップする動画などで使用可能です。自分の声に自身がない、自分が男性なので女性の声が出せないというときに活用できます。

上記の動画では、Team HENSHINがRVCを活用してナレーションを行ったものです。演者の音声データを学習させ、あたかも本人が話しているかのようにあとからナレーションを足しています。
動画の冒頭はナレーションで、中盤では本人が話しているものです。これを見ればRVCの質についてはご理解いただけるでしょう。

Vtuberでの配信活動でも有効

RVCはキャラクターの声を多様化させるのに効果的です。ダンディな男性の声、可愛らしい女性の声、幼い子どもの声など、自分の声を様々な声に変えて配信することができます。

Vtuberとして活動する場合にもリアルタイム変換も可能なので、誰でも理想のキャラクターと理想の声で配信することができます。

音声コンテンツの制作

Vtuberに加え、RVCは音声コンテンツの制作とも相性が良いといえます。ポッドキャストやオーディオブックでも活用でき、配信したいコンテンツに応じて声質を変えることが可能です。

プライバシーを保護してオンライン会議が可能

RVCは、オンライン会議でも活用することができます。自分の本来の声を隠し、異なる声で話すことにより、プライバシー保護にも効果的です。

RVCを使用する際の注意点やデメリット

RVCの使用にはいくつかの注意点があります。ここではRVCの注意点やデメリットについてご紹介します。ここでご紹介する点に留意してRVCを活用すると良いでしょう。

RVCの環境構築が必要

RVCを使うためには、Windows PCで環境を構築する必要があります。一定のPCの操作スキルが求められます。基本的にはソフトウェアをインストールして設定を行うことが必要です。
また、RVCのインターフェースは中国語で記載されているので、その煩わしさはあるかもしれません。日本語での説明もありますが、やや不自然な翻訳になっている箇所もあります。

他のAI系ツールはブラウザサービスになっているものも多いので、ローカルに環境構築が必要なのは一種のデメリットとも言えます。その分、ネットワーク通信に左右されずに使える点はメリットとも言えます。

学習データによって品質が不安定

RVCは学習させるデータによって品質が大きく異なります。
データ量が少なかったり、データ量が多くても声以外の雑音やBGMなどが含まれていると、思った声質に変換できないことがあります。

きちんと学習データ量を確保し、ノイズ除去などの加工を行えば問題なく使えます。RVCの操作よりも、適切な学習データの用意が一番大変だと言えるでしょう。

また、声質は似せることができても、声の出し方は技術によるものです。普段聞くような声優のような感情が込めたような話し方、ナレーターのハキハキとした話し方になるわけではないのも注意が必要です。

リアルタイム変換での遅延

リアルタイムでの音声変換では多少遅延が発生します。弊社の環境でテストしたところ、体感で1秒前後の遅延でした。

Vtuberなどの生配信で作業するとコミュニケーションが円滑に進められない場合もあるでしょう。

学習元データの権利やフェイクなどの問題

RVCではAIによって声を真似ることができますが、学習させるデータの権利なども考える必要があります。
2023年11月、岸田総理が絶対に発言しないようなことをAIを活用して発生させたフェイク動画が大きな話題となりました。ニュースでも取り上げられるほどで、実際に動画の制作者は軽い気持ちで投稿したとされています。

AIによって声が本人そっくりに真似できるようになったことで、フェイクニュースも実際に出てきているため、データの取り扱いやRVCの使い方には注意が必要です。

RVCの導入方法

多くの利点を持つRVCですが、ここからは具体的な導入方法について解説していきます。基本的には、PCにソフトをインストールするだけで使えるようになります。無料でできるので、ぜひ導入してみてください。

パソコンのスペックによっては上手く動作しない可能性があります。
その場合は、Googleが提供している「GoogleColab」を使用して環境構築すると良いでしょう。

Windowsでのインストール方法

はじめにインストール方法について解説していきます。ここではWindowsでの環境構築方法になります。Macをお使いの方は次項をご覧ください。

前提として、Pythonがインストールされいている必要があります。
Pythonのインストールについては詳細は下記動画をご覧ください。

Pythonのインストールが完了したら次のステップ進みましょう。

▶ Releases · RVC-Project/Retrieval-based-Voice-Conversion-WebUI

まずは上記のサイトからRVCの最新版をダウンロードしましょう。PCにGPUがあるバージョンとないバージョンでファイルが異なるので、ご自身の環境に合わせて選択しましょう。
なお、AIコミュニティサイトのHugging Faceのアカウントが必要になります。無料ですので、未登録の方は登録してダウンロードしましょう。

7zファイルをダウンロードしたら、ファイルを解凍します。7zファイルの解凍は7-Zipなどのフリーの解凍ソフトなどで可能です。

解凍したフォルダはCドライブに入れます。移動させたら、フォルダ内にある「go-web.bat」を開くと「RVC WebUI」が起動し、ブラウザでRVCを使用することができます。

上手く起動しない場合は、コマンドプロンプトに表示されているURLをクリックしましょう。

Macでのインストール方法

MacもWindows同様、Pythonのインストールが前提になります。
MacでのPythonのインストール方法については、Python公式サイトで具体的な方法を解説しています。下記を参照してインストールを進めてみましょう。

▶ macOS環境のPython: Python環境構築ガイド – python.jp

まずはGitHubからRVCをダウンロードします。GitHubからRVC-WebUIのコードをクローンするか、ZIPファイルとしてダウンロードし展開します。

▶ Releases · RVC-Project/Retrieval-based-Voice-Conversion-WebUI

ターミナルでRVC-WebUIのディレクトリに移動し、下記のコードを実行します。

実行コード

webui.sh

これによりPythonの仮想環境が作成され、必要な依存関係がインストールされます。
初回のファイルダウンロード後、ターミナルに表示されるURLをブラウザで開き、WebUIを使用します。

これでMacの環境構築は完了となります。

リアルタイム変換に必要なソフト

RVCをリアルタイム変換で活用するには、追加で2つのソフトのダウンロードが必要になります。

VB-Audio Virtual Cableをリンクからダウンロードしてください。VB-Audio Virtual Cableは、音声の入力先と出力先を管理できる仮想オーディオデバイスです。

ダウンロードしたファイルを解凍すると、フォルダの中に「VBCABLE_Setuup_x64.exe」が格納されているので実行します。インストーラーが開くので、手順に沿ってインストールすれば完了です。

続いてVC Clientもダウンロードしましょう。VC Clientはリアルタイムで音声変換してくれるボイスチェンジャーです。

▶ GitHub – w-okada/voice-changer: リアルタイムボイスチェンジャー Realtime Voice Changer

Windows版、 M1 Mac版はhugging faceのリポジトリからダウンロードできます。

VCClient のリポジトリ

Light VCClient for Beatrice v2 のリポジトリ

*1 Linuxはリポジトリをcloneしてお使いください。

引用元 GitHub – w-okada/voice-changer: リアルタイムボイスチェンジャー Realtime Voice Changer

ページ下部にダウンロードリンクがあるので、こちらからダウンロードすることが可能です。

アップデートが一覧で表示されるので、最新のものをダウンロードしましょう。基本的にはV2の中でも新しいバージョンがおすすめ。ですが、自身の環境に合わないものを選択すると動かないので注意が必要です。

上記の画像は、バージョンにおける比較表になります。こちらを参照して、自身に合う環境のバージョンをインストールしてください。

▶ hubert_base.pt · lj1995/VoiceConversionWebUI at main

VC Clientを使用するための追加ファイルをダウンロードします。上記のURLにアクセスし、「hubert_base.pt」をダウンロードし、先ほど解凍したフォルダの「MMVCServerSIO」に入れましょう。

MMVCServerSIOフォルダにある「start_http.bat」ファイルを開くとVC Clientが起動します。

RVCの使い方

無事にRVCの導入が完了できたでしょうか。次に実際にRVCの使い方について解説していきます。

細かい設定などがありますが、ここでは保存した音声をAIに変換する方法とリアルタイム音声変換で使用する方法について解説します。
この2つを覚えれば、あとは細かい調整になるので気になる方は公式ページもご覧ください。

▶ Retrieval-based-Voice-Conversion-WebUI/docs/jp/README.ja.md at main · RVC-Project/Retrieval-based-Voice-Conversion-WebUI · GitHub

学習済みのモデルを追加する

AIで声を変換するために、学習させた「モデル」が必要になります。

モデルの追加方法としては、RVCのフォルダにある「weights」フォルダ内にpthファイルを追加するのみです。

学習済みのモデルはネットで配布されています。下記のサイトでは、RVCの学習済みデータのダウンロードが可能です。無料のものから有料のものもあるので、まずは無料のものから試してみると良いでしょう。
なお、規約は必ず確認し、特に商用利用する際は細心の注意を払って利用してください。

▶ RVCに関する人気の同人グッズ144点を通販できる! – BOOTH

保存した音声をAI変換する

音声ファイルをRVCでAI変換する方法について解説します。「モデル推論」のタブを開いてください。

①の「音源推論」では、モデルを選択することができます。隣にある「音源リストとインデックスパスの更新」を押すと、RVCを起動したまま追加データの確認と反映を行います。

②の「ピッチ変更」では変換後にどれくらいのピッチで変換するかを設定できます。記述のとおり、男声から女声は+12キー、女声から男声は-12キーが推奨されています。こちらの値は実際に変換してみて、聞きながら調整すると良いでしょう。

③は変換する音声ファイルの保存場所を入力する欄になります。

④は処理の方式を選択するものです。細かな違いはありますが、こちらもピッチと同様に実際に聞きながら調整すると良いでしょう。

その他の欄の数値についても、変換の際に調整できる値になります。変換して声を聞いてみて、後から調整を掛けていくと良いでしょう。
当然、変換するファイルが長いと時間がかかるため、最初は短めの音声ファイルでテストしてみることをおすすめします。

調整が完了したら、⑤の「変換」をクリックすることで処理が開始されます。
変換が終了すると、下にある「出力音声」から音声の確認ができます。こちらから保存することも可能です。

リアルタイム音声変換で使用する

リアルタイムで音声変換を行うためには、VC Clientを使用します。
「MMVCServerSIO」フォルダの「start_http.bat」ファイルを起動しましょう。

上記はVC Clientの画面になります。
上部に表示されている①がモデルで、こちらから利用するモデルを選択しましょう。
モデルを追加する場合は「編集」を押して、「アップロード」を押します。ModelとIndexのファイルをアップすればVC Clientにモデルを追加できます（Indexファイルがなくても可能です）。

画面中部の②はリアルタイム変換の開始と終了、音量調整などが可能です。「start」で開始、「stop」で終了できます。

画面下部の③でPCのオーディオ設定を変更しないと、リアルタイム変換はできません。
「input」はマイクにし、「output」は繋いでいるヘッドフォンなどにすれば、喋った内容が変換されてヘッドフォンから聞くことができます。

配信で使いたい場合は、「output」を「VB-Audio Virtual Cable」にします。その上で、配信するプラットフォームのオーディオ設定で入力デバイスを「VB-Audio Virtual Cable」にすれば問題ありません。
本番で配信する前にテスト配信をしておくと安心でしょう。

RVCの学習済みモデルの作り方

ネットからモデルをダウンロードすることも可能ですが、「この人の声にしたい！」ということもあるでしょう。
その際は、自身で学習元データを用意して、それをRVCを用いて学習させ、モデル化することが必要です。

学習済みモデルの作り方については別の記事で解説しています。詳しいやり方については、下記をご覧ください。

RVCを適切に使用して自身の活動に活かそう！

RVCについて、そもそもRVCとは何かから導入方法や使い方、リアルタイム変換のやり方について解説してきました。
RVCは様々な用途で活用でき、自身の活動の幅を広げられる便利なツールになります。特にナレーションに困っている方、Vtuberなどの配信をしたい方には非常に強力な武器となるでしょう。
ただし、適切に使わないと思わぬところで被害を受ける人を生んでしまいます。使い方には注意し、正しく活用するようにしましょう。

学習済みモデルの作成が難しいから作成してほしいという方、RVCのセットアップをしてほしいという方は、Team HENSHINで代行することも可能です。ご依頼はお問い合わせよりお待ちしております。

Team HENSHINでは、RVC以外にも様々なAIツールについて、日々の活動に活かせるよう研究を重ねています。
本メディアでも、様々なAIツールの使い方などを解説しているので、ぜひ他の記事も参考にしてみてください。