曲からボーカルを除去する方法：5つの方法を比較（2026年）

曲からボーカルを除去するには、かつてはスタジオでリミックスするために数万円を支払うか、無料ツールで空洞のような位相キャンセルされたサウンドを甘受するしかありませんでした。AIステム分離モデルが実際の音楽でも本当に良い音を出せるクオリティに達したことで、その状況は一変しました。このガイドでは、最良のAIツールから昔ながらのテクニックまで、あらゆる方法を取り上げ、それぞれが生み出す結果について正直に評価します。

なぜほとんどの「ボーカル除去」ツールは期待外れなのか

各方法を説明する前に、なぜ代表的なツールがしばしば期待外れに終わるのかを理解しておく価値があります。「センターチャンネル除去」アプローチ — Audacityが使用し、ほとんどの無料オンラインツールが採用し、20年間この分野を席巻してきた手法 — は、一方のステレオチャンネルの位相を反転させて足し合わせることで機能します。これにより、完全にセンターにパンされたすべての音が打ち消されます。多くの録音では、メインボーカルがそこに含まれます。

問題は、現代のポップミックスでは、ボーカルが完全にセンターにパンされることはほとんどないという点です。リバーブのテール、バッキングボーカル、ハーモニー、プロのマスタリングチェーンのステレオ拡張プラグインにより、ボーカルのエネルギーはステレオフィールド全体に広がっています。位相キャンセルではボーカルを除去できません — 薄くなり、特有の空洞のある音が残ります。また、残したかったベース、キックドラム、その他のセンター寄りの要素も除去されてしまいます。

AIモデルはまったく異なる仕組みで動作します。正解がわかっている数万もの分離済みトラックで訓練されており、ステレオ位置に関係なく、ボーカルの音色、倍音パターン、スペクトル特性を認識するよう学習しています。結果として得られるのは、キャンセルではなく本物の分離です。

方法の比較

方法	品質	処理時間	コスト	インストール不要
AIオンラインツール（StemSplit）	優秀	約60秒	1曲ごと	はい
Ultimate Vocal Remover（ローカル）	優秀	2〜5分	無料	いいえ
iZotope RX	優秀	2分	$399以上	いいえ
Audacity位相キャンセル	低品質	5分	無料	いいえ
EQ削減	非常に低品質	5分	無料	任意

方法1：AIオンラインツール（ほとんどの人に最適）

カラオケ、練習用トラック、リミックス、楽曲学習といったほとんどの用途では、AIオンラインツールが正解です。インストール不要、設定不要、そして標準的なハードウェア上のローカルモデルに匹敵する品質が得られます。

StemSplitの使い方

StemSplitのボーカル除去は、MetaのHTDemucs Fine-Tuned（HTDemucs FT）を使用しています。これはMetaが提供する最高品質のオフラインステム分離モデルです。プロのワークフローで使われているのと同じモデルが、ブラウザ上で動作します。

ステップ1：音声をアップロードする StemSplitのボーカル除去にアクセスし、ファイルをアップロードしてください。対応フォーマット：MP3、WAV、FLAC、M4A、OGG、WEBM、およびほとんどの動画形式（音声は自動的に抽出されます）。

ステップ2：無料でプレビューする ダウンロードの前に、インストゥルメンタルの30秒プレビューを聴いてください。これは重要なステップです — トラックによって分離のクオリティが異なるため、支払いの前に品質を確認することをお勧めします。

ステップ3：ダウンロードする プレビューがきれいな音であれば、フルインストゥルメンタルをダウンロードしてください。アカペラ、リミックス、分析に役立つ、分離されたボーカルも別ファイルとしてダウンロードできます。

ソースの品質が重要

モデルは与えられたものしか処理できません。手元にある最高品質のソースを使用してください。

フォーマット	期待される分離品質
WAV または FLAC（ロスレス）	最良
MP3（320 kbps）	非常に良い
MP3（192 kbps）	良い
MP3（128 kbps）	許容範囲内、若干のアーティファクトあり
YouTubeリップまたは圧縮ストリーム	変動あり — 多くの場合は問題ないが、著しく劣ることも

これは理論上の懸念ではありません。AIモデルはロッシー圧縮が捨ててしまう細かな周波数の詳細を分析します。128 kbpsのMP3はオリジナルと同じ知覚的な圧縮アーティファクトを持ちますが、それらのアーティファクトがモデルが分離に使うパターンを妨害します。

AIによる分離が最も効果的な場合

クリアなメインボーカルを持つポップ、R&B、ヒップホップ： これらは非常にきれいに分離されます。ボーカルとインストゥルメンタルは、一貫した音色パターンを持つ明確な周波数領域を占有しています。
ボーカルが際立つエレクトロニック音楽： シンセサイザー楽器は予測可能なスペクトルプロファイルを持っており、モデルはそれをオーガニックな音色のボーカルからきれいに区別できます。
シングルボイスのアコースティック音楽： リバーブとアレンジの複雑さが少ないため、曖昧になる周波数が少なくなります。

アーティファクトが多くなる場合

ボーカルに非常に強いリバーブがかかっているトラック： 長いリバーブのテールがボーカルのエネルギーを「インストゥルメンタル」の空間遠くまで広げます。モデルはドライなボーカルをきれいに引き出しますが、リバーブのテールがインストゥルメンタルに混ざり込むことがあります。
ボーカルと楽器が同じ周波数帯域を共有しているトラック： フィンガーピッキングのアコースティックギターとソプラノボーカルはほぼ同一の周波数帯域に存在します。分離はより困難になります。
非常に古い、またはローファイな録音： プレステレオのモノラル録音は、モデルが処理するための情報が少なくなります。

いずれの場合も、30秒のプレビューで支払い前に品質を確認できます。

方法2：Ultimate Vocal Remover（無料、ローカル）

Ultimate Vocal Remover（UVR）は、HTDemucs、MDX-Net、BS-RoFormerを含む商用ツールと同じ高品質AIモデルを実行する、無料のオープンソースデスクトップアプリケーションです。性能の高いコンピューターを持っており、曲ごとのコストをかけたくない場合、これが最良の無料オプションです。

必要条件

Windows、macOS、またはLinux
最低8 GB RAM、16 GB推奨
GPU強く推奨（CUDAを搭載したNVIDIA、またはMetalを搭載したApple Silicon）
モデル用に約5 GBのディスク容量

手順

GitHubのリリースページからUVRをダウンロードしてインストールする
初回起動時にモデルをダウンロードする — 最高品質にはHTDemucs FT、ボーカル分離に特化するならBS-RoFormerを推奨
音声ファイルをドラッグ＆ドロップする
分離するステムとして「Vocals」を選択する
Processをクリック — 最新のGPUで4分の曲なら1〜3分かかる
出力ファイルが選択したフォルダに表示される

UVRでのモデル選択

選択するモデルによって出力品質が大きく変わります：

HTDemucs FT： 4つのステム（ボーカル、ドラム、ベース、その他）すべてにおいてオールラウンドに最高品質。汎用的な分離にはこれを使用してください。
BS-RoFormer： ボーカル分離に特化して最適化されています。クリーンなボーカルまたはクリーンなインストゥルメンタルだけが必要な場合、現時点でこのモデルが最良の結果を出します。
MDX-Netのバリアント： 処理は速いですが、HTDemucs FTよりやや品質が低くなります。速度が重要なバッチ作業に適しています。

UVRの品質の上限はStemSplitと同じです — 同じモデルを実行しています。違いは利便性とコストのトレードオフです。

方法3：iZotope RX（プロフェッショナルオーディオ修復）

iZotope RXはオーディオ修復・レストアの業界標準です。Music Rebalanceモジュールはステムを分離するためにAIを使用し、それぞれのレベルを独立して調整できます — ボーカルトラックの削減や完全除去も含めて。出力品質は優秀で、専用のステム分離ツールに匹敵します。

最適な用途： すでにRXを所有している、またはほかの作業でも必要なオーディオエンジニア、ポッドキャストプロデューサー、音楽プロフェッショナル向けです。標準バンドルのコスト（$399以上、またはサブスクリプションで月$9）は、単純な一時的なボーカル除去だけのためには正当化されません。

RXでの手順

RXで音声ファイルを開く（またはDAW内のプラグインとして使用する）
Music Rebalanceモジュールを開く
Vocalsスライダーを0（または完全に除去する場合は-inf dB）にドラッグする
プレビューする — 必要に応じて他のステムを同時に調整できる
レンダリングしてエクスポートする

RXには、標準のステム分離がスピーチの多い音声や二重録音のボーカルで苦労するエッジケース向けにDialogue Isolationモジュールも含まれています。

方法4：Audacityの位相キャンセル（無料、品質は低い）

Audacityの「Vocal Reduction and Isolation」エフェクトは最もよく推奨される無料ツールですが、一貫して最も期待外れな結果をもたらします。使わなくても、なぜ失敗するのかを理解しておくことには意義があります。

テクニックとその限界

このエフェクトは、ステレオファイルをLとRチャンネルに分割し、Rの位相を反転させ、L+Rを足し合わせることで機能します。両チャンネルで同一のもの（完全にセンターにパンされたもの）はすべて打ち消されてサイレントになります。ボーカルがステレオ処理なしでハードセンターにパンされることが多かった1960〜1980年代の録音では、使えるレベルの結果が得られます。

現代の録音では機能しません。ボーカルにはコーラス、リバーブ、ステレオ拡張、倍音のダブリングが施されており、それがステレオフィールド全体に広がっています。得られるのは、ボーカルが小さくなってはいるものの依然として明確に聞こえる、薄くてベースが減退したミックスです — そして楽器の音も悪くなります。

手順（参考のため）

Audacity（無料）をダウンロードしてファイルを開く
すべて選択（Ctrl+A / Cmd+A）
エフェクト → ノイズ除去と修復 → Vocal Reduction and Isolation
アクションを「Remove Vocals」に設定する
エクスポートする

評価： インターネットにアクセスできず、凡庸な結果でも許容できる場合のみ適切です。AIツールはほぼ常により優れています。

方法5：手動EQ削減（最終手段）

上記のどのツールにもアクセスできない場合、任意のイコライザーでボーカルが存在する周波数帯域（おおよそ300 Hz〜5 kHz）をカットすることで、ボーカルの存在感を減らすことができます。これは最も効果の低い方法です。

実際に何をするのか：ミックス全体のミッドレンジをカットします。ボーカルは小さくなりますが、ギター、キーボード、ストリングス、その周波数帯域を共有するすべての音も小さくなります。結果は薄くて金属的な音になります。ボーカルを除去するのではなく、録音全体が壊れたスピーカーから聞こえているかのような音になります。

これはオフラインで他のツールが一切利用できない場合の絶対的な最終手段としてのみ使用してください。

どの用途にどの方法を使うか

カラオケトラックの作成： AIオンラインツール（StemSplit） — 技術的な設定なしで使えるインストゥルメンタルへの最速ルートです。支払い前にプレビューで品質を確認してください。

音楽練習（一緒に演奏するために楽器を除去する）： AIオンラインツールまたはUVR。ギター、ベース、ドラム — ボーカルだけでなく — を除去するには、各楽器を個別に取得するためにフルステムスプリッターを使用してください。

プロのリミックスや制作： UVR（無料）またはiZotope RX（所有している場合）。ローカル処理により、モデルパラメーターとバッチワークフローをより細かく制御できます。

ボーカルメロディーを学ぶ： ボーカルを除去するのではなく、分離します。StemSplitからアイソレーテッドボーカルステムをダウンロードして、任意のメディアプレーヤーでループ再生してください。

一回限りのカラオケや練習： AIオンラインツール — 品質は優秀で、1曲ごとの料金は月額サブスクリプションより経済的です。

分離されたボーカルをどう活用するか

インストゥルメンタルの作成以外にも、StemSplitから得た分離ボーカルトラックは以下の用途に使えます：

アカペラリミックス： ボーカルをDAWに取り込み、その下に全く新しいビートを構築します。分離されたボーカルはオリジナルのBPMと調性が保たれています — DAWのタイムストレッチツールを使って新しいテンポに合わせてください。

ピッチ分析： 分離されたボーカルをピッチ検出ツール（Melodyne、Antares、またはTonyなどの無料ツール）に読み込んで、楽器の干渉なしに正確な音符とメロディーを確認できます。

ボーカルプロダクション研究： ボイスに適用されたプロダクション — コンプレッション、リバーブの種類とタイム、ピッチコレクションのアーティファクト、ダブリング — を正確に聴き取れます。フルミックスよりも分離されたトラックの方がはるかに明確です。

機械学習データセット： 音声合成や分離モデルを構築する研究者が、分離されたボーカルをトレーニングデータとして使用します。

よくある質問

曲からボーカルを完全に除去できますか？ AI分離は、ほとんどの曲でボーカルの存在感の大部分を除去します。残るものはトラックによって異なります — よく分離されたポップ制作では、結果は本質的にクリーンです。リバーブが多い、またはレイヤーの多い制作では、かすかなアーティファクトが残ることがあります。AIは特定の周波数帯域をミュートするのではなく、ボーカルパターンを見つけて抽出するため、ほとんどの現代の制作を非常うまく処理します。

なぜ結果が少し空洞のような音になったり、アーティファクトがあるのですか？ アーティファクトは、ボーカルの周波数が楽器の周波数とモデルがきれいに分離できない形で重なっているときに発生します。ボーカルへの強いリバーブが最も一般的な原因です — リバーブのテールが楽器の周波数帯域に溶け込みます。ひどい場合は、分離前にデリバーブツールで軽くフィルタリングすることが助けになることがあります。

「ボーカル除去」と「ステムスプリッター」の違いは何ですか？ ボーカル除去は2つの出力を生成します：インストゥルメンタル（ボーカル除去済み）とオプションで分離されたボーカル。ステムスプリッターはフルミックスを4つ以上のステム — ボーカル、ドラム、ベース、その他の楽器 — に分離します。インストゥルメンタルだけが必要な場合はボーカル除去を使用してください。個別の楽器が必要な場合はフルステムスプリッターを使用してください。

ボーカルを除去するとインストゥルメンタルの音質に影響しますか？ インストゥルメンタルステムは、ボーカルと楽器の間で一部の周波数コンテンツが共有されていたため、オリジナルミックスとわずかな違いがあります。クリアなボーカル分離の良いソースでは、インストゥルメンタルはオリジナルに非常に近いです。難しいソース（密度の高いアレンジ、重いリバーブ）では、より顕著な違いがある場合があります。オリジナルミックスは常に分離されたステムよりも良い音ですが、ほとんどの実用的な目的（練習、カラオケ、リミックス）では品質は十分以上です。

Spotifyの曲をボーカル除去ツールで使用できますか？ SpotifyのストリームはDRM保護されており、直接処理することはできません。自分で所有しているオーディオファイル — 購入したダウンロード、所有しているCDのリップ、または使用する権利を持つファイル — が必要です。

曲からボーカルを除去することは合法ですか？ 個人的な使用（練習、自宅でのカラオケ、学習）のためにボーカルを除去したバージョンを作成することは、ほとんどの法域でフェアユースと見なされます。著作権で保護された録音の改変バージョンを配布、公開演奏、または販売することは、各国の著作権法に従う別の問題です。不明な場合は、ステムを個人使用のみに限定してください。

どんな曲からでもボーカルを除去

StemSplitのボーカル除去は、HTDemucs Fine-Tunedをブラウザ上で実行します — プロフェッショナルなオフラインステム分離に使われているのと同じモデルです。

支払い前に30秒の無料プレビュー
フルインストゥルメンタルと分離されたボーカルをダウンロード
アカウント不要、サブスクリプション不要

ボーカル除去を無料で試す →