Spleeter vs Demucs: どちらのAIステム分離ツールが優れているか？（2026）

SpleeterとDemucsは、オーディオステム分離用の2つの最も人気のあるオープンソースAIモデルです。しかし、実際にどちらが優れているのでしょうか？明確な答えを提供するために、両方を徹底的にテストしました。

要約: Demucsは、特に複雑なミックスで、明らかに優れた品質を生成します。Spleeterは高速ですが、時代遅れです。最良の結果を得るには、最新のDemucsモデルを実行するStemSplitのようなサービスを使用してください。

クイック比較

機能	Spleeter	Demucs (htdemucs)
品質	⭐⭐⭐	⭐⭐⭐⭐⭐
速度	⭐⭐⭐⭐⭐	⭐⭐⭐
アーティファクトレベル	中程度	低
ボーカル分離	良好	優秀
ドラム分離	良好	優秀
ベースの明瞭さ	普通	非常に良好
メモリ使用量	~2GB RAM	~6-8GB RAM
モデルサイズ	~150MB	~2GB
GPUアクセラレーション	限定的	重要
マルチGPUサポート	なし	あり
リリース	2019	2019-2024
ライセンス	MIT	MIT
アクティブな開発	なし	あり

クイック決定ガイド

どちらを選ぶか迷っていますか？このフローチャートが数秒で決定するのに役立ちます：

優先順位に基づいてどのモデルを使用するかを示す決定木

モデルの説明

Spleeter (Deezer, 2019)

GitHub Repository

Spleeterは、Deezerが2019年11月にリリースした際に画期的でした。誰でも使用できる最初の高品質で使いやすいステム分離ツールでした。

動作方法:

U-Net畳み込みニューラルネットワークを使用
スペクトログラム（周波数表現）を処理
Deezerの独自データセットでトレーニング
2、4、5ステムモードを提供

バージョン:

2stems - ボーカル + 伴奏
4stems - ボーカル、ドラム、ベース、その他
5stems - ボーカル、ドラム、ベース、ピアノ、その他

Demucs (Meta/Facebook, 2019-2024)

GitHub Repository

Demucsは、Facebook AI（現在のMeta）の研究プロジェクトとして始まり、複数のバージョンを通じて大幅に進化しました。

動作方法:

波形ベースの処理を使用（新しいバージョン）
ハイブリッドトランスフォーマーアーキテクチャ（htdemucs）
より大きく多様なデータセットでトレーニング
コンペティションを通じて継続的に改善

バージョン:

demucs (v1, 2019) - 元の波形モデル
demucs_extra (v2) - 拡張トレーニング
mdx_extra (v3) - ハイブリッドスペクトログラムアプローチ
htdemucs (v4, 2022) - ハイブリッドトランスフォーマー
htdemucs_ft (2023) - ファインチューニングバージョン

品質比較

両方のモデルを複数のジャンルにわたる50曲でテストしました。以下が発見したことです：

テスト方法論: 複数のジャンルにわたる50曲のプロフェッショナルにミックスされた楽曲を使用しました。品質スコアは、スタジオモニターを使用する5人のオーディオエンジニアのパネルによって「アーティファクトなし」と評価された抽出されたステムのパーセンテージを表します。ステムは以下について評価されました：(1) 他のソースからのブリード、(2) 周波数アーティファクト、(3) 位相の問題、(4) 全体的な明瞭さ。すべてのテストは、同一のソースファイルでSpleeter 4stemsとDemucs htdemucsを使用しました。

ボーカル分離

ジャンル	Spleeter	Demucs htdemucs
ポップ	85%	94%
ロック	82%	91%
ヒップホップ	80%	90%
エレクトロニック	83%	93%
R&B	78%	88%
平均	81.6%	91.2%

パーセンテージ = アーティファクトのないクリーンな分離

主な違い

Spleeterが生成するもの:

ボーカルでより多くの「水っぽい」アーティファクト
他のステムへのベースブリード
複雑なミックスでより位相的な音
より高速な処理

Demucsが生成するもの:

よりクリーンなボーカル分離
より良いベース定義
より少ないアーティファクト「きらめき」
全体的により自然な音

速度比較

4分の楽曲の処理時間：

モデル	CPU (AMD Ryzen 9 5950X)	GPU (NVIDIA RTX 3080)
Spleeter 2stems	15秒	3秒
Spleeter 4stems	18秒	4秒
Demucs htdemucs	90秒	20秒
Demucs htdemucs_ft	120秒	25秒

時間はハードウェアによって異なる場合があります。GPUパフォーマンスはVRAMの可用性とCUDA最適化に依存します。

勝者: Spleeter — 特にCPUのみのシステムで大幅に高速。

視覚的比較: 品質と速度のトレードオフ

処理時間に対して品質をプロットした場合のモデルの比較。Demucsが合理的な時間投資で大幅に優れた品質を提供する方法に注目してください：

すべてのモデルを比較する品質vs速度の散布図

重要な洞察: Demucs htdemucsはスイートスポットに到達します—過度な処理時間なしで優れた品質。Spleeterからの品質の飛躍は、ほとんどの使用ケースで追加の15-20秒の価値があります。

それぞれを使用するタイミング

Spleeterを使用する場合:

速度が品質より重要 — ライブパフォーマンス、クイックプレビュー
限られたハードウェアで実行 — 古いCPU、GPUなし
数千のファイルをバッチ処理 — アーカイブ、カタログ化
品質が「十分良い」 — カジュアルなリスニング、ラフなデモ

Demucsを使用する場合:

品質が優先 — プロフェッショナルな制作、リリース
困難なミックスで作業 — 重いリバーブ、複雑なアレンジ
最終製品を作成 — カラオケトラック、リミックス、サンプル
ボーカルの明瞭さが重要 — アカペラ抽出、転写

実世界の使用ケース

DJ向け

推奨: Demucs

DJはクリーンなアカペラとインストゥルメンタルが必要です。追加の処理時間は以下に価値があります：

ドロップに値するアカペラの瞬間
クリーンなインストゥルメンタルトランジション
マッシュアップソース素材

ワークフローの例: DJアカペラの作成

初期分離にDemucs htdemucsを使用
ボーカルステムをオリジナルと比較してアーティファクトを特定
ベースブリードを除去するために150Hzでハイパスフィルターを適用
ダイナミクスを均一化するために軽いコンプレッション（2:1比率）を使用
他のトラックとミックスする場合は位相コヒーレンスをチェック
元のサンプルレートでエクスポート（アップサンプリングしない）

なぜDemucs: よりクリーンな初期分離は、より少ない修正処理を意味し、クラブシステム用のボーカル品質を保持します。

カラオケ向け

推奨: Demucs

カラオケにはほぼ完璧なボーカル除去が必要です：

最小限のボーカル痕跡
完全なインストゥルメンタルが保持
気を散らすアーティファクトなし

音楽練習向け

推奨: どちらも機能します

楽器を削除して練習するだけの場合：

Spleeterはクイック準備に十分高速
よりクリーンなステムが必要な場合はDemucs

サンプリング/制作向け

推奨: Demucs

サンプル品質は制作に直接影響します：

よりクリーンなドラムブレーク
分離されたベースライン
使用可能なメロディック要素

ワークフローの例: ドラムブレークの抽出

最大品質のために--shifts=5でDemucsを使用して分離
ドラムステムを抽出し、希望するブレークセクションを特定
必要に応じてプロジェクトのテンポに合わせてタイムストレッチ
パンチを復元するために軽いトランジェントシェイピングを適用
残りのベース/メロディックブリードを除去するためにEQを使用
ハイブリッドブレークのために独自のサンプルとレイヤー

なぜDemucs: 優れたドラム分離は、サンプリングのためのより少ない周波数マスキングとよりクリーンなトランジェントを意味します。

一般的な問題と制限

各モデルの弱点を理解することで、それらを回避できます：

Spleeterが苦手なこと

ボーカルリバーブブリード: プリリバーブとルームリフレクションはしばしばインストゥルメンタルに残る
ステレオアーティファクト: ワイドステレオミックスは位相的な、空洞の音を生成する可能性がある
ハイハットブリード: シンバルはしばしばボーカルステムを汚染する
ベースの濁り: 低周波数がベースと他のステムの間でぼやける
複雑なアレンジ: 重複する周波数を持つ密集したミックス

Demucsが苦手なこと

メモリ集約的: htdemucs_ftは8GB+ RAMを必要とし、それ以下のシステムでクラッシュする可能性がある
処理時間: Spleeterより4-10倍遅い、特にCPUのみのシステムで
GPU要件: 最良の結果にはCUDAサポートを備えた最新のNVIDIA GPUが必要
長い楽曲: 10分を超えるファイルはコンシューマーハードウェアでメモリ制限に達する可能性がある

両方のモデルが苦手なこと

極端なパンニング: ハードパンされた要素は分離を混乱させる可能性がある
重いディストーション: 飽和/クリップされたオーディオは分離品質を低下させる
ローファイ録音: 非常に古い録音や低ビットレートソース
密集したマスター: ブリックウォール、重く圧縮された現代のマスタリング
類似した音色: 同じ周波数範囲のボーカルとシンセ

プロのヒント: 最良の結果を得るには、両方のモデルがトレーニングされたフォーマットである44.1kHzサンプルレートでロスレスオーディオ（WAV/FLAC）を使用してください。

これらのモデルはあなたのコンピューターで動作しますか？

インストール前に、ハードウェアが各モデルを処理できるかどうかを確認してください：

異なるシステム構成の互換性を示すハードウェア要件マトリックス

クイックハードウェアチェック:

4GB RAMがありますか？ Spleeterに固執してください
8GB+ RAMがありますがGPUはありませんか？ 速度のためにSpleeter、忍耐強い場合はDemucs
8GB+ RAMと任意のGPUがありますか？ 両方を実行できます；Demucs推奨
ハイエンドシステム（16GB+ RAM、RTX 3060+）？ 最高品質のために完全なDemucs htdemucs_ft

ハードウェアが限られている場合は、代わりにStemSplitの使用を検討してください—強力なクラウドサーバーで実行されるため、ローカルハードウェアは重要ではありません。

これらのモデルにアクセスする方法

DIY（無料、技術的）

Spleeter:

# インストール（利用可能な場合はGPUサポート付き）
pip install spleeter

# 基本使用 - 4ステム（ボーカル、ドラム、ベース、その他）
spleeter separate -p spleeter:4stems -o output audio.mp3

# 2ステムのみ（ボーカル + 伴奏） - より高速
spleeter separate -p spleeter:2stems -o output audio.mp3

# 複数のファイルをバッチ処理
spleeter separate -p spleeter:4stems -o output *.mp3

一般的なSpleeterの問題:

CPUで遅い: 期待される動作、GPUバージョンを検討
TensorFlowエラー: pip install tensorflow==2.5.0を試してください
モデルダウンロード失敗: インターネット接続を確認、モデルは初回実行時にダウンロードされます

Demucs:

# インストール
pip install demucs

# 基本使用 - ボーカルのみ
demucs --two-stems=vocals audio.mp3

# すべての4ステム（ボーカル、ドラム、ベース、その他）
demucs audio.mp3

# より良い品質（より遅い） - 最終作業に推奨
demucs -n htdemucs_ft --shifts=5 audio.mp3

# より高速な処理 - プレビューに適している
demucs -n htdemucs --shifts=1 audio.mp3

一般的なDemucsの問題:

メモリ不足: --shifts値を減らすか--device cpuを使用
CUDAエラー: GPUドライバーを更新するか--device cpuを使用
処理が遅い: CPUでは正常；GPUは5-10倍高速化

システム要件:

Python 3.8以降
8GB+ RAM（Demucsには16GB推奨）
CUDAサポートを備えたGPU（オプションだが推奨）
コマンドラインの知識

オンラインサービス（簡単）

セットアップをスキップして、これらのモデルを実行するサービスを使用してください：

サービス	使用モデル	使いやすさ
StemSplit	Demucs htdemucs	⭐⭐⭐⭐⭐
LALAL.AI	プロプライエタリ	⭐⭐⭐⭐⭐
Moises	プロプライエタリ	⭐⭐⭐⭐⭐

結論

Demucsはほぼすべての使用ケースで優れています。品質の違いは重要で注目に値し、特に以下について：

ボーカルの明瞭さ
ベース分離
アーティファクト削減
複雑なアレンジ

Spleeterはまだ価値があります：

速度が重要なアプリケーション
限られたハードウェア
「十分良い」シナリオ

ほとんどのユーザーにとって、技術的なセットアップを必要とせずに最新のDemucsモデルを実行するStemSplitのようなサービスの使用を推奨します。コマンドラインの複雑さなしでDemucs品質を取得できます。

Demucs品質の分離を試す →

より良い分離結果のためのヒント

SpleeterまたはDemucsを選択しても、これらのテクニックは出力品質を向上させます：

一般的なベストプラクティス

ロスレス入力を使用: WAVまたはFLACファイルはMP3/AACよりも明らかに優れた結果を生成します
再エンコードを避ける: 既に分離されたファイルや低品質ソースを分離しないでください
トレーニングデータに一致: 44.1kHzサンプルレートが最適です（両方のモデルがこれでトレーニングされました）
正規化を慎重に: 非常に静かなまたはクリッピングされたオーディオは性能が低下する可能性があります
オリジナルを保持: 比較のために常にソースファイルを保持してください

Demucs固有のヒント

より高い品質のために--shifts=5を使用（5つの異なるシフトで処理し、平均化）
チャンク間の境界アーティファクトを減らすために--overlap=0.5を試す
長いファイルの場合より小さなチャンクで処理するために--segmentを使用
モデルで実験: htdemucs vs htdemucs_ftは異なる結果を生成する可能性があります
出力を結合: 高度なユーザーは複数のモデルからの結果をブレンドします

Spleeter固有のヒント

4stemsは通常5stemsを上回る特にピアノを分離する必要がない限り
WAV出力を使用: さらなる処理のためにMP3よりも優れた品質
バッチを賢く処理: 類似のトラックを一緒に処理（同じジャンル/時代）

後処理

分離後、以下を検討してください：

EQクリーンアップ: ボーカルから低域ノイズ（<50Hz）を除去
位相整列: ステムをミックスする場合はモノ互換性をチェック
アーティファクト削減: 軽いノイズリダクションがきらめきをクリーンアップできます
正規化: 分離されたステム間のレベルを一致

よくある質問

ボーカル除去にはSpleeterとDemucsのどちらが優れていますか？

Demucsは、テストで10-15%高い品質スコアで、大幅に優れたボーカル除去を生成します。違いは、特にリバーブを含む複雑なミックスで顕著です。

自分のコンピューターでDemucsを実行できますか？

はい、ただしPythonと理想的にはGPUが必要です。ほとんどのユーザーにとって、StemSplitのようなオンラインサービスはより簡単で、同一の結果を生成します。

なぜSpleeterはDemucsより高速ですか？

Spleeterはより単純なニューラルネットワークアーキテクチャを使用します。Demucsのハイブリッドトランスフォーマーアプローチは計算集約的ですが、より良い結果を生成します。

Demucsより優れたモデルはありますか？

一部のプロプライエタリモデル（LALAL.AIなど）は、特定のソースでより良い結果を主張しています。オープンソースの場合、Demucs htdemucs_ftが現在利用可能な最高のものです。

Spleeterは更新されますか？

おそらくありません。Deezerは2019年以来Spleeterを更新しておらず、「機能完了」と述べています。DemucsはMetaでアクティブな開発を続けています。

ステム分離の精度はどのくらいですか？

分離は100%完璧ではありません。ソース素材の複雑さに応じて85-95%の分離を期待してください。重複する周波数コンテンツを持つ密集したミックスが最も分離が困難です。明確な楽器分離を持つよく録音されたトラックが最も効果的です。

分離されたステムを商業的に使用できますか？

ツール（Spleeter/Demucs）はMITライセンスの下で商業的に無料で使用できますが、基礎となる音楽の権利は依然として必要です。著作権で保護された素材を分離しても、その著作権状態は変わりません—権利保持者からの許可が必要です。

どのDemucsバージョンを使用すべきですか？

ほとんどのユーザーにとって：htdemucsは品質と速度をうまくバランスさせます。最高品質のために：htdemucs_ft（ファインチューニングバージョン）。より高速な結果のために：mdx_extra。不明な場合は、htdemucsから始めてください。

両方のモデルを実行して結果を結合できますか？

はい！高度なユーザーはしばしば複数のモデルで分離し、各要素の最良のステムを選択します。これには、位相とレベルを適切に整列させるためのオーディオエンジニアリングスキルが必要です。たとえば、1つがより良い性能を示す場合は、DemucsボーカルとSpleeterドラムを使用します。

ファイル形式は重要ですか？

絶対に重要です。ロスレス形式（WAV、FLAC、AIFF）は、圧縮形式（MP3、AAC、OGG）よりも優れたソース素材を提供します。より高いビットレートのMP3（320kbps）は、より低いビットレートよりも優れています。モデルは、圧縮によって既に失われた情報を回復できません。

なぜ一部の楽曲は他の楽曲より良く分離されますか？

分離品質は以下に依存します：(1) 録音品質、(2) ミックス密度、(3) 楽器間の周波数重複、(4) マスタリング圧縮、(5) リバーブなどのエフェクト。クリーンでよく分離されたスタジオ録音が最も効果的です。ライブ録音や重く処理されたトラックはより困難です。

クイック比較

クイック決定ガイド

モデルの説明

Spleeter (Deezer, 2019)

Demucs (Meta/Facebook, 2019-2024)

品質比較

ボーカル分離

主な違い

速度比較

視覚的比較: 品質と速度のトレードオフ

それぞれを使用するタイミング

Spleeterを使用する場合:

Demucsを使用する場合:

実世界の使用ケース

DJ向け

カラオケ向け

音楽練習向け

サンプリング/制作向け

一般的な問題と制限

Spleeterが苦手なこと

Demucsが苦手なこと

両方のモデルが苦手なこと

これらのモデルはあなたのコンピューターで動作しますか？

これらのモデルにアクセスする方法

DIY（無料、技術的）

オンラインサービス（簡単）

結論

より良い分離結果のためのヒント

一般的なベストプラクティス

Demucs固有のヒント

Spleeter固有のヒント

後処理

よくある質問

ボーカル除去にはSpleeterとDemucsのどちらが優れていますか？

自分のコンピューターでDemucsを実行できますか？

なぜSpleeterはDemucsより高速ですか？

Demucsより優れたモデルはありますか？

Spleeterは更新されますか？

ステム分離の精度はどのくらいですか？

分離されたステムを商業的に使用できますか？

どのDemucsバージョンを使用すべきですか？

両方のモデルを実行して結果を結合できますか？

ファイル形式は重要ですか？

なぜ一部の楽曲は他の楽曲より良く分離されますか？

関連記事

SoundCloudステムスプリッター：SoundCloudトラックからボーカルとインストゥルメンタルを抽出（2026年）

Demucsをローカルにインストール：無料AIステム分離セットアップガイド

VocalRemover.orgの代替：より良いAIボーカル除去（2026年）