ステム分離の仕組み：AIが音楽をパーツに分ける方法（2026年）

AIツールを使ってボーカルを除去したり、楽曲からドラムを抽出したりした経験があれば、ステム分離を体験したことになります。でも、実際にどうやって機能しているのでしょうか？ある曲では素晴らしい仕上がりになるのに、別の曲では明らかなアーティファクトが残るのはなぜでしょう？そして、これらのモデルが毎年良くなっていくのは、内部で何が起きているからなのでしょうか？

この記事では全体像——科学的な仕組み、実際の制限、そして2026年にステムセパレーターに楽曲を通したときに実際に何を期待できるか——を網羅します。

ステム分離とは何か？

ステム分離（音源分離、オーディオデミキシング、またはミュージックアンミキシングとも呼ばれます）は、ミックスされた音声録音を個々の構成要素に分解する計算プロセスです。単一のステレオファイルとして届く典型的なポップソングには、リードボーカル、ハーモニー、キックドラム、スネア、ベースギター、ギター、キーボード、そしてプロデューサーが加えたすべてのものが一緒に録音されています。ステム分離は、そのミキシングプロセスを数学的に逆算しようとします。

「ステム」という言葉は音楽制作の用語に由来しています。レコーディングスタジオでは、ステムはサブミックスのこと——関連する楽器のグループをまとめた単一の音声ファイルです。プロデューサーはすべてのドラムトラックを含む「ドラムステム」、すべてのボーカルレイヤーを含む「ボーカルステム」などをエクスポートすることがあります。これらのステムは、個々のトラックをすべて共有することなく、マスタリングエンジニアやシンクライセンサーにプロジェクトを引き渡しやすくします。

現代のAIステム分離はこれと同じ出力を生成します——ただし、元のマルチトラックからではなく、最終的なステレオミックスから逆算するのです。分離されたステムで何ができるかについての幅広い解説は、AIステムスプリッターガイドをご覧ください。

ほとんどのツールが対象とする4つの標準ステムは：

ボーカル — リードボーカル、バッキングボーカル、ハーモニー、そしてスポークンワード
ドラム — フルドラムキット：キック、スネア、タム、ハイハット、シンバル、パーカッション
ベース — ベースギター、シンセベース、低周波数域のトーナル楽器
その他 — 上記に当てはまらないすべて：ギター、キーボード、シンセ、ストリングス、ホーン、エフェクト

より高度な6ステムモデルではギターとピアノが別々の出力として追加されますが、ギターとキーボードは多くの他の楽器と周波数帯域が重なるため、確実に分離するのがより難しいです。

なぜ古い手法は失敗したのか

現代のAI分離がいかに印象的かを理解するには、以前の手法を知ることが役立ちます。

位相キャンセレーション（1960年代〜2010年代）

最も古いトリックは位相キャンセレーションでした。ステレオファイルを取り、片方のチャンネルを反転させてモノラルにサミングすると、両チャンネルで同一の信号はキャンセルされます。多くのポップミックスでは、リードボーカルはモノラルで録音されてセンターにパンされていたので、左右のチャンネルに同一に現れました。反転してサミングすると除去できました。

明らかな問題：センターにパンされたすべての音がボーカルと一緒に除去されてしまいます。これには通常、キックドラム、ベースギター、スネア、その他センターにパンされた要素が含まれました。得られた「インストゥルメンタル」は中身が空洞になってしまいました。そして、ボーカルにステレオエフェクト（リバーブ、コーラス）が使われていれば、その部分はキャンセレーションを生き延びて幽霊のようなアーティファクトを残しました。この手法が、昔ながらの「ボーカルリムーバー」が酷い音になっていた理由です。

周波数フィルタリング

より粗い手法として、人間の声に最も関連する周波数帯域（おおよそ200 Hzから3 kHz）をカットする方法があります。ギター、ピアノ、ドラムもすべてその周波数帯域を占めているため、ミックス全体を損傷させてしまいます。ボーカルをある程度ミュートしながら、その過程で他のすべてを破壊してしまうのです。

スペクトル編集

iZotope RXのようなツールを使った手動のスペクトル編集では、熟練したエンジニアがスペクトログラム表示でボーカル成分を塗りつぶし、無音またはノイズで近似した音に置き換えることができます。ドアが急に閉まった箇所のクリーンアップや、短いスポークンフレーズの除去など、小さなセクションでは驚くほどうまく機能することがあります。しかし、曲全体に行うには何時間もの専門的な作業が必要で、結果にもつなぎ目が残ります。

これらのどのアプローチも、クリーンで完全な長さのステム分離を生み出すことはできませんでした。AIはそれを完全に変えました。

現代のAIステム分離の仕組み

今日のシステムは、ミックスの中で一つの音源を別の音源と区別するスペクトル的・時間的なパターンを認識するように訓練されたディープニューラルネットワークです。

ステップ1：オーディオをスペクトログラムに変換する

生の音声は波形です——1秒間に何千回もサンプリングされた圧力値の時系列データです。しかし、ニューラルネットワークは、信号の周波数内容が時間とともにどのように変化するかを示す2D表現でより良く機能します。この変換の標準的なツールは**短時間フーリエ変換（STFT）**で、スペクトログラムを生成します：水平軸が時間、垂直軸が周波数、各点の明るさ（または色）がその瞬間にその周波数がどれだけ大きいかを表すグリッドです。

ピアノロールのようなものと考えることができますが、個別の音符を示すのではなく、同時に演奏されているすべての完全な連続した周波数スペクトルを示しています。スネアの打撃はギターコードとは違って見え、持続するボーカルの音符とも違って見え——それらすべてがベースギターとも違って見えます。スペクトログラムはこれらの違いを可視化します。

ステップ2：ニューラルネットワークが実際に学習すること

モデルは、分離されたステムがすでに分かっている曲のデータセットで訓練されます——本質的に、ソフトウェア上で「ミックスされた」数千のマルチトラック録音から学習します。各訓練サンプルで、モデルはミックスされた曲のスペクトログラムと各個別ステムのスペクトログラムを一緒に見ます。

訓練中に、ネットワークはボーカル対ドラム対ベースに関連する特定のスペクトルの形状、テクスチャー、動きのパターンを学習します。ベース周波数は長く滑らかに持続する音符を持つ傾向があることを学びます。ドラムが多くの周波数にわたって同時に鋭い垂直線（過渡音）を生み出すことを学びます。ボーカルには独特のフォルマント構造——母音が変化するにつれてシフトする人間の声に固有の共鳴周波数パターン——があることを学びます。

**Hybrid Transformer Demucs（HTDemucs）**のような最も高性能な現代のアーキテクチャは、2つの並列ストリームで同時に音声信号を処理します：

生の波形を直接処理する時間領域ストリーム：過渡音、タイミング、位相関係の捕捉に特に優れています
スペクトログラムで動作する周波数領域ストリーム：トーナルコンテンツ、ハーモニクス、スペクトルテクスチャーの識別に優れています

Transformerベースのアテンションメカニズムが、これら2つのストリーム間で情報を流し、モデルがそれぞれから学習した内容を組み合わせることができます。このデュアルパスアプローチが、一つの表現のみを使用していた以前のモデルよりHTDemucsが優れている理由です。

ステップ3：マスク推定

各ステムの出力波形を直接予測するのではなく、ほとんどのアーキテクチャはマスクを推定することで機能します——入力スペクトログラムと同じサイズのグリッドで、各セルには0から1の間の値が含まれ、その時間のその周波数が特定のステムに属する割合を表します。

ドラムマスクを元のスペクトログラムに適用すると、ドラムに見えないすべてのものが抑制されます。ボーカルマスクを適用すると、ボーカルに見えないすべてのものが抑制されます。ソフトマスキング（値がバイナリの0/1ではなく分数である場合）は、ハードカットよりも多くの音質を保持します。これが標準になった理由です。

ステップ4：オーディオに変換する

各ステムのマスクされたスペクトログラムが計算されたら、最後のステップは逆STFTを使用してそれらを音声波形に変換することです。結果はステムごとに1つの音声ファイルのセットで、合計すると元のミックストラックをおおよそ再構成するはずです。

ツール間で聞こえる品質の差は通常、使用されたトレーニングデータ量、モデルアーキテクチャの大きさと洗練度、そしてマスキング戦略がリバーブテールや過渡音などの細かいディテールを保持するかどうかに帰着します。

主なAIモデルの比較

2019年以来、いくつかのオープンソースモデルが最先端を定義してきました。これらの違いを理解することで、さまざまなツールがなぜそのような音になるかが説明できます。以下のSDR値はすべて、研究コミュニティ全体で使用される標準テストセットであるMUSDB18ベンチマークのボーカルステムに対するものです。

クイック比較

モデル	年	ボーカル SDR	速度（4分トラック）	最適な用途
Spleeter	2019	~6.5 dB	~10秒（CPU）	高速プロトタイピング
Demucs v3	2021	~7.3 dB	~45秒（CPU）	良好な品質、CPU向け
HTDemucs	2022	~8.7 dB	~60秒（CPU）	最高の総合品質
HTDemucs FT	2022	~8.9 dB	~60秒（CPU）	最高の総合品質、特にポップ/R&B
MDX-Net Extra	2021	~9.0 dB	~90秒（CPU）	ボーカルのみのワークフロー
BS-RoFormer	2024	~10.9 dB	~120秒（CPU）	最先端のボーカル分離

Spleeter（Deezer、2019年）

Spleeterはステム分離のための最初の広くアクセス可能なオープンソースモデルで、大きな影響を与えました——突然、誰でも自分のマシンで合理的な品質の分離を実行できるようになりました。周波数領域のみで動作するU-Netアーキテクチャ（スキップ接続を持つエンコーダーデコーダーネットワーク）を使用しています。

強み： 高速、軽量、控えめなハードウェアで動作、デプロイが簡単、基本的なカラオケ用途にはまだ十分。
弱み： 多くの曲でブリードが明確に聞こえる、リバーブの多いボーカルに苦労する、5ステムモードは2ステムに比べて品質が目に見えて低下。
ボーカル SDR： MUSDB18で~6.5 dB。

SpleeterとDemucsのジャンル別SDRテーブルを含む直接比較については、Spleeter vs Demucsの解説をご覧ください。

Demucs v3（Meta/Facebook、2021年）

Demucs v3は周波数領域と並んで時間領域処理を導入し、Spleeterからの大きな飛躍でした。ゲーテッドコンボリューションを持つエンコーダーデコーダーネットワークを使用して生の波形を直接処理し、より良い位相コヒーレンスとシャープな過渡音を提供します——タイミングが重要なドラムとベースのステムで特に顕著です。

強み： Spleeterよりクリーンな過渡音、より良い位相コヒーレンス、GPUなしのCPUでも良好な結果。
弱み： Spleeterより遅い、Transformerコンテキストモデリングの恩恵を受けない、同等の計算コストでHTDemucsの方が良い結果を出す。
ボーカル SDR： MUSDB18で~7.3 dB。

HTDemucs（Meta/Facebook、2022年）

現在の主流標準です。HTDemucsはTransformerアテンションメカニズムを追加し、モデルがより長い時間的コンテキストを推論できるようにします——第1小節で演奏されているベース音は第3小節のベース音とおそらく関連していて、ランダムには変化しないという理解です。この長距離依存性モデリングが、以前のコンボリューションのみのモデルよりも複雑な調和音楽をうまく処理できる理由です。

強み： 4つのステムすべてにわたる最高の総合品質、密なミックスをうまく処理、よりクリーンなリバーブテール、より良いベース分離、Demucs GitHubからの無料オープンソースとして入手可能。
弱み： Spleeterより遅い、より多くの計算が必要、非常に密なミックスで低周波のブリードが偶に起きる。
ボーカル SDR： MUSDB18で~8.7 dB——標準指標でSpleeterより約35%高品質。

**HTDemucs Fine-Tuned（htdemucs_ft）**は、より小さなキュレーションされたデータセットでさらに訓練されたバージョンです。平均的なトラックではベースHTDemucsと同様のパフォーマンスを発揮しますが、特定のジャンル（特にポップとR&B）ではより顕著にクリーンな結果を出します。StemSplitはデフォルトですべてのジョブでhtdemucs_ftを実行します。**HTDemucs 6s（htdemucs_6s）**はギターとピアノを別々の出力として追加します——制作作業に便利ですが、それらの追加ステムの精度は標準の4つよりも低くなります。

MDX-Net（Music Demixing Challenge、2021年）

MDX-NetモデルはSound Demixing Challengeから生まれ、アンサンブルアプローチを使用しています——複数のモデルの出力を平均化して組み合わせます。mdx_extraバリアントは標準ベンチマークセット以外の追加データで訓練されました。

強み： 特にボーカル分離においてHTDemucsと競合または若干上回る；ボーカル品質のみが優先事項の場合に有用。
弱み： ドラムとベースではHTDemucsに遅れを取る；アンサンブル計算により遅い；汎用性が低い。
ボーカル SDR： mdx_extraでMUSDB18において~9.0 dB——ボーカルは強い、他のステムは弱い。

実際の音楽では、htdemucs_ftとmdx_extraの差はベンチマーク数値が示すよりも小さいです。どちらが「良い」かは、多くの場合、特定の曲のジャンルとミックスの特性によって異なります。

BS-RoFormer（2024年）——現在の最先端

最新世代のモデルです。BS-RoFormer（Band-Split RoFormer）は、音声スペクトルをサブバンドに分割し、各バンドを専用のアテンションヘッドで処理するバンドスプリット信号表現にRoformer（回転位置埋め込みを持つTransformerの変種）を適用します。このアーキテクチャにより、モデルは細粒度の周波数の詳細と長距離の時間的構造を同時に推論できます。

強み： 2026年時点で公開されているモデルの中で最高のボーカルSDR、古いモデルで一般的な金属的なアーティファクトを大幅に削減、リバーブが多いボーカルを特に良好に処理。
弱み： 計算集約的、まだHTDemucsほど広く展開されていない、効率的に実行するには新しいインフラが必要。
ボーカル SDR： MUSDB18で~10.9 dB——HTDemucsに対して意味のある改善、特に難しい素材で聞き取れるほどの差。

BS-RoFormerは商業ツールに登場し始めており、このフィールドが向かっている方向を示しています。

分離品質が実際にどのように聞こえるか

SDR数値はモデルを客観的に比較するのに役立ちますが、アーティファクトが実際にどのように聞こえるかは教えてくれません。何を期待できるかを以下に示します。

ブリードの問題

AIモデルは完全に分離されたステムを生成しません。隣接するソースからの何らかの信号が常に各出力に「漏れ込み」ます。分離されたボーカルトラックでは、ミックスで最も大きかったもの——多くの場合キックドラムやスネア——の微かな幽霊の音が聞こえるでしょう。インストゥルメンタルトラックでは、かすかに処理されたような音のボーカルの影が聞こえるでしょう。

ブリードは通常、用途を台無しにするほど目立ちません。カラオケでは、インストゥルメンタルの下にかすかなボーカルのアーティファクトが聞こえても、元のフルボリュームの声よりはるかに気になりません。ドラムブレイクをサンプリングする場合、ドラムトラックの下にかすかなベースが聞こえても、文脈の中では通常聞こえません。

ブリードが本当に問題になるのは、プロフェッショナルなミキシングワークフローにおいてです——商業的にリリースされた楽曲をリミックスしようとしていて、クラブリリースのために本当にクリーンなステムが必要な場合、AI分離はiZotope RXや同様のツールでの追加の手動処理なしには通常十分にクリーンではありません。

リバーブテールと過渡音

リバーブテールはAIモデルが処理するのが最も難しいことの一つです。ボーカリストが長いリバーブの多いフレーズを歌うと、リバーブテールはボーカルを超えて延び、スペクトログラムにボーカルまたは背景のどちらに帰属させるかが難しい方法でにじんでいきます。現代のモデルはそれなりの仕事をしますが、分離されたステムでのリバーブの動きが元のミックスとわずかに異なって聞こえることがよくあります。

過渡音——ドラム、ギターピック、ピアノキーの鋭いアタック——は、周波数領域のみのモデルのときよりも現在はずっとよく処理されます。HTDemucsの時間領域ストリームはアタックのディテールを十分に保持するため、分離されたドラムトラックは通常、パンチがあって自然に聞こえます。

ジャンルは大きく影響する

分離品質はジャンルによって大幅に異なります：

ジャンル	ボーカル品質	ドラム品質	備考
スタジオポップ/R&B	優秀	優秀	密だが周波数帯域が明確に定義
エレクトロニック/EDM	非常に良い	非常に良い	シンセ楽器がクリーンに分離
ヒップホップ	非常に良い	良い	ボーカルは通常クリア；808ベースがブリードすることがある
アコースティック/フォーク	良い	良い	自然楽器からの周波数分離が少ない
ロック/メタル	良い	良い	ディストーションギターがスペクトログラムに雑然さを生む
ジャズ	まずまず〜良い	まずまず	楽器が大きく重なり、複雑なハーモニクス
クラシック	まずまず	N/A（ドラムなし）	最も難しい——密な調和的絡み合い
ライブ録音	まずまず	まずまず	アンビエントノイズ、室内音響、ステージのブリード

スタジオポップとエレクトロニック音楽は、現代のプロダクションが既に楽器を比較的明確な周波数帯域に保つため、最も分離が良い傾向があります。ジャズとクラシックが最も難しいのは、すべてが深く調和的に絡み合い、自然な室内音響で録音されているからです。

AIの分離が失敗するとき（そしてその理由）

失敗のパターンを理解することで、良い結果を得られる場合とそうでない場合を予測できます。

ヘテロフォニーとダブリング

2つの楽器が同時に同じ音符を演奏するとき——ボーカルがオクターブ上のピアノラインによってダブリングされている、またはギターがキーボードとユニゾンで演奏している場合——モデルはどのステムに入れるかを決めることが多くの場合できません。ダブリングされたパートが2つの出力に分かれてしまうか、完全に間違ったものに割り当てられてしまうことがあります。

極端なエフェクト処理

強いボーカルディストーション（オートチューン、ピッチシフト、ボコーダー処理されたボーカルなど）は、人間の声の自然なフォルマントパターンを認識するように学習したモデルを混乱させます。ボーカルのスペクトル特性を変えるロボットボイスエフェクトは、クリーンに分離される代わりに「その他」のステムに漏れ込む原因になることがあります。

同様に、ファズペダルやオクターブエフェクトのような極端なギターエフェクトは、ギターのスペクトルフィンガープリントを変えるため、モデルがその一部を誤分類することがあります。

低周波混乱

約80 Hz以下のサブベース周波数は、その範囲のすべて——ベースギター、キックドラム、シンセベース——がスペクトログラムで低いうなりに混ざり合うため、分離が困難です。サブベース領域まで延びる808スタイルのキックドラムは、ベースラインとスペクトル的に重なるため、特に問題があります。808がドラムとベースの両方の出力にブリードすることがよくあります。

低品質なソースファイル

128kbps MP3をステムセパレーターに通しても、単に品質の低い出力が得られるだけではありません——MP3圧縮アルゴリズムが既に音声情報を廃棄してリンギングアーティファクトを導入しているため、積極的にアーティファクトが導入されます。モデルはそれらのアーティファクトを楽器信号として解釈するかもしれません。最良の結果を得るには、320kbps MP3かロスレスファイル（WAV、FLAC）を使用してください。

実際のユースケースと期待できること

カラオケトラックの作成

これは最も多い使用例であり、AI分離が実際に最もよく機能する場面です。HTDemucsで分離されたクリーンな最新のスタジオ録音は、ボーカルのブリードが気にならない程度のインストゥルメンタルトラックを提供します。インストゥルメンタル出力に軽いローカットとマルチバンドコンプレッションを追加することでさらに結果が向上します。サービスの比較については、ベストボーカルリムーバーツールのラウンドアップをご覧ください。

StemSplitのボーカルリムーバーはこのユースケース専用に最適化するためにhtdemucs_ftを実行します。

音楽練習と学習

練習のためにステムを分離することも、このテクノロジーの優れた使い方です。録音からギターを除いて一緒に演奏したり、ピアノパートだけを抽出して耳で学んだりすることは、現代のモデルでうまく機能します。他の楽器からのわずかなブリードは、パートを学習する妨げになりません。分離されたステムを使用して、フルミックスに埋もれているプレイヤーのテクニックの細かいディテールを聞くこともできます。

DJマッシュアップとライブパフォーマンス

DJはマッシュアップやライブのステムミキシングのために分離されたアカペラとインストゥルメンタルを使用します。ここでの品質基準はスタジオ制作よりも寛容です——大きな音響システムのあるクラブ環境では、低レベルのボーカルブリードは聞こえません。Girl Talkのようなアーティストは、現代のAIが生成するよりはるかに低品質なボーカルオーバーインストゥルメンタルの組み合わせでキャリア全体を築いてきました。

制作とサンプリング

これはAI分離が現実の限界にぶつかる場面です。分離したドラムやベースを新しい制作に使用する場合、リリース準備のためにiZotope RXや同様のツールでステムをクリーンアップする必要があります。サンプルベースのヒップホップ制作では、AI分離のドラムステムは、ベースのブリードを除くためのハイパスフィルターとEQの後に通常使用可能です。

クリーンなサンプルを厳密に必要とする商業リリースでは、AI分離だけでは通常十分ではありません——元のマルチトラックセッションが必要です。

最良の結果を得る方法

利用可能な最高品質のソースファイルを使用する

ロスレスはMP3より良いです。320kbps MP3は128kbpsより大幅に良いです。FLACやWAVバージョンがある場合は、常にそれを使用してください。低ビットレートファイルは、モデルが楽器信号と誤解しうる圧縮アーティファクトを導入し、すべてのステム出力を劣化させます。

ライブ録音とブートレグを避ける

スタジオ録音はミックスがコントロールされているため、常により清潔に分離されます。ライブ録音には自然な部屋の響き、観客のノイズ、マイク間のステージブリードがあり、モデルを混乱させます。たとえ優れたライブ録音でも、同じ曲の平均的なスタジオミックスよりも明らかに悪いステムを生成します。

コミットする前に短いクリップをテストする

5分間の完全なトラックを処理する前に、最も複雑な部分（通常はコーラス）の30秒のセクションをアップロードして、品質が適切かどうかを確認してください。コーラスで出力に問題がある場合、他の場所では改善しません。これは、特定のジャンルやプロダクションスタイルがうまく分離できるかどうか不明な場合に特に役立ちます。

出力をポストプロセスする

分離されたボーカルステムに穏やかなハイパスフィルター（約80〜100 Hz）をかけると、ブリードからのサブベースのハムが除去されます。トランジェントシェーパーは、ドラムステムが若干柔らかく聞こえる場合にパンチを復元できます。マルチバンドコンプレッションは、時折ボーカルゴーストが現れるインストゥルメンタルを引き締めるのに役立ちます。これらの修正は通常2分未満で、出力の使いやすさを顕著に向上させます。

期待値を調整する

2026年のAI分離は本当に印象的です——わずか4年前に可能だったものをはるかに超えています。魔法ではありません。できることとできないことを理解することで、その限界に驚かされることなく効果的に使用できます。自分のマシンでローカルに実行したい場合、Demucsセットアップガイドが完全なインストールプロセスを説明しています。セットアップ不要のオンラインオプションを好む場合は、Demucsオンラインチュートリアルがそのワークフローをカバーしています。

自分で試してみましょう

ステム分離を理解する最良の方法は、いくつかのトラックを実行して批判的に聴くことです。StemSplitのステムスプリッターはGPUバックエンドサーバーでhtdemucs_ftを実行し、2分以内にトラックを処理します。アカウント不要で、コミットする前に30秒のプレビューを取得するために任意の曲をアップロードできます。

無料でステムを分割 →

FAQ

AIステム分離は完璧ですか？

いいえ。現在のモデルは非常に良い結果を生成します——ほとんどのユーザーは目的のために出力が役立つと感じます——しかし、隣接する楽器からのブリードは常にあります。2022年と2026年のモデルの品質の差は大きく、改善は続いています。BS-RoFormerが現在の上限を表し、将来のアーキテクチャはそれをさらに押し上げるでしょう。

ステム分離とボーカル除去の違いは何ですか？

ボーカル除去はステム分離の特定のアプリケーションで、ボーカル/インストゥルメンタルの分割に焦点を当てています。ステム分離は、ミックスを任意の数のコンポーネント（ボーカル、ドラム、ベース、その他の楽器）に分解するより広いプロセスです。すべてのボーカルリムーバーはステム分離を行いますが、すべてのステムセパレーターがボーカル除去に使用されるわけではありません。

スタジオのオリジナルステムと比べてどうですか？

オリジナルのスタジオステムは常にベターです——ミキシングが行われていないため、完全な分離があります。AI分離のステムには、オリジナルステムにはない残留ブリードがあります。プロフェッショナルな制作用途では、利用可能な場合はオリジナルステムが望ましいです。それ以外では、AI分離は実用的な代替手段です。

どのモデルを使用すればよいですか？

ほとんどの目的では：htdemucs_ft。4つのステムすべてにわたって最高の総合品質の結果を生成します。ギターとピアノを特別に分離する必要がある場合はhtdemucs_6sを使用してください。ボーカル分離品質のみが懸念で、ドラム/ベース出力が悪くても構わない場合はmdx_extraを使用してください。Spleeterは非常に大量の処理を行っていて品質よりも速度が重要な場合にのみ考慮する価値があります。

最良の結果のためにどの形式でアップロードすればよいですか？

WAVまたはFLAC（ロスレス）が最良の結果をもたらします。高品質MP3（320kbps）はほぼ同等です。品質の低いMP3（192kbps以下）は分離品質を低下させる圧縮アーティファクトがあるため避けてください。

分離されたボーカルにまだ音楽が聞こえるのはなぜですか？

これは上述のブリードアーティファクトです——現在のマスキングベースアプローチの根本的な制限です。ブリードの量はジャンル、ミックス品質、使用されたモデルによって異なります。HTDemucsベースのツールは古いモデルよりも最小化しますが、完全には消えません。BS-RoFormerはさらに削減します、特にリバーブの多いボーカルで。

ステム分離は5年後にどうなっていますか？

軌跡は、難しいジャンルの継続的な改善、極端なエフェクト処理のより良い処理、そして個々のドラム要素（キック、スネア、ハイハット）を高精度で分離できる可能性を指しています。コンシューマーハードウェアでのリアルタイム分離は既に実用的になりつつあります。マスキングベースのCNNからTransformerと拡散ベースの生成アプローチへのアーキテクチャのシフトにより、ほとんどの素材でオリジナルのマルチトラックと区別が難しいステムが生成される可能性が高いです。