Demucsをローカルにインストール：無料AIステム分離セットアップガイド

Demucsは、StemSplitを含む今日のほとんどのプロフェッショナルなステム分離ツールを支えるAIモデルです。このガイドでは、インストールからアーキテクチャ、カスタムモデルのトレーニングまですべてをカバーし、好奇心旺盛なミュージシャンとMLエンジニアの両方に向けて書かれています。

要約：Demucsは、Meta AIによるハイブリッドトランスフォーマーモデルで、オーディオをボーカル、ドラム、ベース、その他の楽器に分離します。pip install -U demucsでインストールし、demucs your_song.mp3で実行すると、数分でスタジオ品質のステムが得られます。最良の結果を得るには、GPU アクセラレーションを使用してhtdemucs_ftモデルを使用してください。

Demucsとは？

Demucs（Deep Extractor for Music Sources）は、Meta AI Researchが開発した音源分離用のオープンソースAIモデルです。ミックスされたオーディオトラックを取り込み、分離されたステム（通常はボーカル、ドラム、ベース、「その他」（それ以外すべて））を出力します。

Demucsが重要な理由：

最先端の品質：MUSDB18-HQベンチマークで9.20 dBのSDR（信号対歪み比）を達成 — 以前のどのモデルよりも高い
波形ベースの処理：スペクトログラムだけでなく、生のオーディオで直接動作し、位相情報を保持
オープンソース：MITライセンス、商用・個人利用とも無料
実績あり：ほとんどのプロフェッショナルなステム分離サービスを支える

最新バージョンのHybrid Transformer Demucs（HTDemucs）は、第4世代の主要なイテレーションを表し、時間領域と周波数領域の処理の長所を組み合わせています。

進化の歴史：v1 → v4

Demucsの進化を理解することで、なぜそれがうまく機能するかを説明できます。

Demucs v1（2019年）

オリジナルのDemucsは、波形で直接動作するU-Netアーキテクチャを導入しました — スペクトログラムのみの手法からの脱却です。主要なイノベーション：

アクティベーション用のGated Linear Units（GLU）
エンコーダーとデコーダー間の双方向LSTM
エンコーダーからデコーダー層へのスキップ接続

アーキテクチャ：BiLSTM付き純粋波形U-Net
SDR：MUSDB18で〜6.3 dB
イノベーション：初の競争力のある波形のみモデル

Demucs v2（2020年）

深さとトレーニングの改善：

より深いエンコーダー/デコーダー（6層→7層）
より良い重み初期化
データ拡張の改善

SDR：MUSDB18で〜6.8 dB
イノベーション：波形モデルがスペクトログラム手法と競争できることを証明

Demucs v3 / Hybrid Demucs（2021年）

ブレークスルー：スペクトログラムと波形処理の組み合わせ：

デュアルU-Netアーキテクチャ（時間領域用と周波数領域用）
ブランチ間の共有表現
ボトルネックでのクロスドメイン融合

SDR：MUSDB18で〜7.5 dB
イノベーション：両方の長所 — スペクトログラムの精度＋波形の位相

Demucs v4 / HTDemucs（2022-2023年）

現在の最先端、トランスフォーマーを追加：

エンコーダーとデコーダーの両方にトランスフォーマー層
時間ブランチと周波数ブランチ間のクロスアテンション
長距離依存性のためのセルフアテンション

SDR：MUSDB18-HQで9.20 dB
イノベーション：トランスフォーマーが長距離の音楽構造をキャプチャ

アーキテクチャの詳細

ML実践者向け：HTDemucsが実際にどのように機能するか。

上位構造

HTDemucsは、情報を共有する2つの並列U-Netブランチを持つデュアルパスアーキテクチャを使用します：

HTDemucsアーキテクチャ - 時間ブランチと周波数ブランチを持つデュアルパスモデル

時間ブランチ（波形処理）

時間ブランチは生のオーディオサンプルを処理します：

エンコーダー：オーディオを徐々にダウンサンプリングするストライド付き1D畳み込みのスタック
ボトルネック：BiLSTM + トランスフォーマーセルフアテンション
デコーダー：元の解像度にアップサンプリングする転置畳み込み
スキップ接続：エンコーダーからデコーダーへのU-Netスタイルの接続

# 簡略化されたエンコーダー層の構造
class TemporalEncoderLayer:
    def __init__(self, in_channels, out_channels, kernel_size=8, stride=4):
        self.conv = nn.Conv1d(in_channels, out_channels, kernel_size, stride)
        self.norm = nn.GroupNorm(1, out_channels)
        self.glu = nn.GLU(dim=1)  # Gated Linear Unit
        
    def forward(self, x):
        x = self.conv(x)
        x = self.norm(x)
        x = self.glu(x)  # 出力はout_channels // 2
        return x

周波数ブランチ（スペクトログラム処理）

周波数ブランチはオーディオの短時間フーリエ変換（STFT）を処理します：

STFT計算：波形を複素スペクトログラムに変換
2D畳み込み：周波数×時間表現を処理
トランスフォーマー層：周波数と時間次元でのセルフアテンション
逆STFT：波形に戻す変換

主要パラメータ：

STFTウィンドウ：4096サンプル
ホップ長：1024サンプル
周波数ビン：2049（44.1kHzオーディオ用）

クロスドメイン融合

魔法はブランチが通信するところで起こります：

# ブランチ間のクロスアテンション（簡略化）
class CrossDomainAttention:
    def forward(self, temporal_features, spectral_features):
        # 時間が周波数に注目
        temporal_out = self.temporal_cross_attn(
            query=temporal_features,
            key=spectral_features,
            value=spectral_features
        )
        
        # 周波数が時間に注目
        spectral_out = self.spectral_cross_attn(
            query=spectral_features,
            key=temporal_features,
            value=temporal_features
        )
        
        return temporal_out, spectral_out

このアーキテクチャが機能する理由

位相保持：波形ブランチが正確な位相関係を維持 — クリーンな分離に不可欠
周波数精度：周波数ブランチは異なる周波数プロファイルを持つ楽器の分離に優れる
長距離依存性：トランスフォーマーが音楽構造（ヴァース-コーラスパターン、繰り返しモチーフ）をモデル化
マルチスケール特徴：U-Netが細部とグローバルコンテキストの両方をキャプチャ

利用可能なモデルの比較

Demucsは複数の事前トレーニング済みモデルを提供しています。比較は以下の通り：

モデル	ステム	SDR（ボーカル）	SDR（平均）	速度	VRAM	最適な用途
`htdemucs`	4	8.99 dB	7.66 dB	高速	~4GB	一般用途、良好なバランス
`htdemucs_ft`	4	9.20 dB	7.93 dB	低速	~6GB	最高品質
`htdemucs_6s`	6	8.83 dB	N/A	中速	~5GB	ギター/ピアノ分離
`mdx`	4	8.5 dB	7.2 dB	高速	~3GB	VRAM少ないシステム
`mdx_extra`	4	8.7 dB	7.4 dB	中速	~4GB	mdxより良い
`mdx_q`	4	8.3 dB	7.0 dB	最速	~2GB	クイックプレビュー

モデル詳細

htdemucs（デフォルト）

標準のハイブリッドトランスフォーマーモデル
良好な品質/速度のトレードオフ
Meta内部データセット + MUSDB18-HQでトレーニング

htdemucs_ft（ファインチューニング済み）

同じアーキテクチャ、追加データでファインチューニング
利用可能な最高品質
最終的な制作作業に推奨

htdemucs_6s（6ステム）

分離対象：ボーカル、ドラム、ベース、ギター、ピアノ、その他
ギターやピアノの分離が必要な場合に有用
より難しいタスクのため、ステムあたりの品質がやや低下

mdx / mdx_extra

MDX 2021コンペティションのモデル
「バッグオブモデル」アンサンブルアプローチを使用
VRAM要件が低い

システム要件

最小要件

コンポーネント	最小	推奨
CPU	任意の最新x86_64	4コア以上
RAM	8 GB	16 GB
GPU	なし（CPUで動作）	NVIDIA 4GB以上のVRAM
ストレージ	2 GB	5 GB（モデル用）
Python	3.8以上	3.10以上

処理時間の推定

44.1kHzの4分間ステレオトラックの場合：

ハードウェア	htdemucs	htdemucs_ft
NVIDIA RTX 4090	約30秒	約60秒
NVIDIA RTX 3080	約45秒	約90秒
NVIDIA RTX 3060	約90秒	約180秒
Apple M1 Pro	約120秒	約240秒
Intel i7（CPU）	約8分	約15分
Intel i5（CPU）	約15分	約25分

GPU VRAMの使用量

VRAM要件はオーディオの長さとモデルに依存します：

モデルとオーディオ長別のVRAM使用量 - 各種Demucsモデルのメモリ要件

VRAMが不足する場合は、--segmentフラグを使用して小さなチャンクで処理してください。

インストールガイド

オプション1：pip（最も簡単）

トラックを分離したいだけのほとんどのユーザー向け：

# 仮想環境を作成（推奨）
python3 -m venv demucs_env
source demucs_env/bin/activate  # Windows: demucs_env\Scripts\activate

# Demucsをインストール
pip install -U demucs

# インストールを確認
demucs --help

以下が表示されるはずです：

usage: demucs [-h] [-s SHIFTS] [--overlap OVERLAP] [-d DEVICE]
              [--two-stems STEM] [-n NAME] [-v] ...

positional arguments:
  tracks                Path to tracks

optional arguments:
  -h, --help            show this help message and exit
  ...

オプション2：Conda（GPU向け推奨）

GPUアクセラレーションとML開発向け：

# リポジトリをクローン
git clone https://github.com/facebookresearch/demucs
cd demucs

# 環境を作成（いずれかを選択）
conda env update -f environment-cuda.yml  # NVIDIA GPU用
conda env update -f environment-cpu.yml   # CPU専用

# 環境をアクティベート
conda activate demucs

# 開発モードでインストール
pip install -e .

# GPUが検出されているか確認
python -c "import torch; print(f'CUDA利用可能: {torch.cuda.is_available()}')"

GPU使用時の期待される出力：

CUDA利用可能: True

オプション3：Docker（最もクリーンな分離）

再現可能な環境向け：

# Dockerfile
FROM pytorch/pytorch:2.1.0-cuda12.1-cudnn8-runtime

RUN pip install -U demucs

WORKDIR /audio
ENTRYPOINT ["demucs"]

ビルドと実行：

docker build -t demucs .
docker run --gpus all -v $(pwd):/audio demucs song.mp3

プラットフォーム別の注意事項

macOS（Intel）

# FFmpegをインストール（必須）
brew install ffmpeg

# SoundTouchをインストール（オプション、データ拡張用）
brew install sound-touch

pip install -U demucs

macOS（Apple Silicon M1/M2/M3）

# FFmpeg
brew install ffmpeg

# MPSサポート付きでインストール（Metal Performance Shaders）
pip install -U demucs

# MPSが利用可能か確認
python -c "import torch; print(f'MPS利用可能: {torch.backends.mps.is_available()}')"

Demucs実行時に--device mpsフラグを使用してください。

Windows

# Anaconda Promptを使用：
conda install -c conda-forge ffmpeg
pip install -U demucs soundfile

# CUDAメモリの問題を防止
set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128

Linux（Ubuntu/Debian）

# システム依存関係
sudo apt-get update
sudo apt-get install ffmpeg libsndfile1

# Demucsをインストール
pip install -U demucs

# オプション：CUDAメモリキャッシュの問題を防止
export PYTORCH_NO_CUDA_MEMORY_CACHING=1

基本的な使用方法

トラックの分離

最も簡単なコマンド：

demucs song.mp3

出力構造：

分離されたステムを示すDemucs出力フォルダ構造

一般的なユースケース

ボーカルのみを抽出（カラオケ作成）：

demucs --two-stems vocals song.mp3

出力：vocals.wavとno_vocals.wav（インストゥルメンタル）

インストゥルメンタルのみを抽出：

demucs --two-stems vocals song.mp3
# その後no_vocals.wavファイルを使用

複数ファイルを処理：

demucs song1.mp3 song2.mp3 song3.mp3

WAVの代わりにMP3で出力：

demucs --mp3 --mp3-bitrate 320 song.mp3

最高品質モデルを使用：

demucs -n htdemucs_ft song.mp3

出力ディレクトリを指定：

demucs -o ./my_stems song.mp3

DIYが適切な場合

Demucsをローカルで実行することが適切な場合について正直に考えましょう：

シナリオ	DIY Demucs	クラウドサービス（StemSplit）
処理量	大量（100曲以上）	時々の使用
ハードウェア	良いGPUがある	CPUのみまたはGPUなし
技術スキル	Python/CLIに慣れている	GUIを好む
プライバシー要件	オーディオをローカルに保持する必要がある	クラウドで問題ない
予算	時間があり、お金がない	お金があり、時間がない
カスタマイズ	モデルのファインチューニングが必要	標準的な分離で十分
支払い前のプレビュー	利用不可	30秒の無料プレビュー

FAQ

Demucsは無料ですか？

はい。DemucsはMITライセンスのオープンソースで、個人利用・商用利用とも無料です。モデルも無料で利用可能です。

Demucsを商用利用できますか？

はい。MITライセンスは制限なく商用利用を許可しています。分離したステムを商用リリースで使用したり、Demucsの上に製品を構築したりできます。

DemucsとSpleeterの違いは何ですか？

側面	Demucs	Spleeter
開発者	Meta AI	Deezer
アーキテクチャ	ハイブリッドトランスフォーマー	シンプルなU-Net
品質（SDR）	約9.2 dB	約5.9 dB
処理	波形 + スペクトログラム	スペクトログラムのみ
速度	より遅い	より速い
リリース	2019年（v1）、2023年（v4）	2019年

Demucsは大幅に高い品質を生み出しますが、より多くの計算が必要です。

GPUは必要ですか？

いいえ、しかし大幅に役立ちます。CPU処理は動作しますが、5-10倍遅くなります。合理的な処理時間のために、4GB以上のVRAMを持つ最新のNVIDIA GPUを推奨します。

処理にはどのくらいの時間がかかりますか？

ハードウェアとモデルによります：

GPU（RTX 3080）：4分の曲で約45秒
CPU（最新のi7）：4分の曲で約8-15分

Demucsはどのオーディオフォーマットをサポートしていますか？

入力：MP3、WAV、FLAC、OGG、M4A、およびFFmpegがデコードできるすべて。出力：WAV（デフォルト）、MP3（--mp3フラグ使用時）。

Demucsは4ステム以上を分離できますか？

はい。6ステム分離にはhtdemucs_6sを使用してください：

ボーカル
ドラム
ベース
ギター
ピアノ
その他

Demucsを更新するには？

pip install -U demucs

モデルはどこにダウンロードされますか？

モデルは以下にキャッシュされます：

Linux/Mac：~/.cache/torch/hub/checkpoints/
Windows：C:\Users\<username>\.cache\torch\hub\checkpoints\

結論

Demucsは、AIを活用した音源分離の最先端を代表しています。サンプルを分離するプロデューサーであれ、オーディオMLの限界を押し広げる研究者であれ、カラオケトラックを作成したい人であれ、この技術がどのように機能するかを理解することで、結果をより細かくコントロールできるようになります。

ほとんどのユーザーにとって、最も簡単な方法はインフラストラクチャを管理するサービスを使用することです。パワーユーザーやML実践者にとっては、Demucsをローカルで実行することで最大限のコントロールとカスタマイズが可能になります。

ステム分離を試す準備はできましたか？

技術がどのように機能するかを見てきました。今度は体験してみましょう。

オプション1：自分で実行する — このガイドに従ってDemucsをローカルでセットアップしてください。

オプション2：セットアップをスキップする — StemSplitはクラウドでDemucs htdemucs_ftを実行します。曲をアップロードし、30秒無料でプレビューし、スタジオ品質のステムをダウンロードしてください。Pythonは不要です。

StemSplitを無料で試す →