Cài đặt Demucs cục bộ: Hướng dẫn tách stem AI miễn phí

Q: Sự khác biệt giữa Demucs và Spleeter là gì?

| Khía cạnh | Demucs | Spleeter |

Demucs là mô hình AI đang cung cấp năng lượng cho hầu hết các công cụ tách stem chuyên nghiệp ngày nay — bao gồm cả StemSplit. Hướng dẫn này bao gồm mọi thứ từ cài đặt đến kiến trúc đến huấn luyện các mô hình tùy chỉnh, được viết cho cả nhạc sĩ tò mò và kỹ sư ML.

TL;DR: Demucs là mô hình hybrid transformer từ Meta AI tách âm thanh thành giọng hát, trống, bass và các nhạc cụ khác. Cài đặt với pip install -U demucs, chạy với demucs bai_hat.mp3, và nhận được stem chất lượng phòng thu trong vài phút. Để có kết quả tốt nhất, sử dụng mô hình htdemucs_ft với tăng tốc GPU.

Demucs Là Gì?

Demucs (Deep Extractor for Music Sources) là mô hình AI mã nguồn mở được phát triển bởi Meta AI Research cho việc tách nguồn âm nhạc. Nó lấy một bản nhạc đã mix và xuất ra các stem riêng biệt — thường là giọng hát, trống, bass và "khác" (mọi thứ còn lại).

Điều gì làm Demucs quan trọng:

Chất lượng tiên tiến: Đạt SDR (Signal-to-Distortion Ratio) 9.20 dB trên benchmark MUSDB18-HQ — cao hơn bất kỳ mô hình nào trước đó
Xử lý dựa trên waveform: Làm việc trực tiếp trên âm thanh thô, không chỉ spectrograms, bảo toàn thông tin pha
Mã nguồn mở: Giấy phép MIT, miễn phí cho sử dụng thương mại và cá nhân
Đã được chứng minh: Cung cấp năng lượng cho hầu hết các dịch vụ tách stem chuyên nghiệp

Phiên bản mới nhất, Hybrid Transformer Demucs (HTDemucs), đại diện cho lần lặp lớn thứ tư và kết hợp những gì tốt nhất của xử lý miền thời gian và tần số.

Sự Tiến Hóa: v1 → v4

Hiểu sự tiến hóa của Demucs giúp giải thích tại sao nó hoạt động tốt như vậy.

Demucs v1 (2019)

Demucs ban đầu giới thiệu kiến trúc U-Net hoạt động trực tiếp trên waveforms — một sự khác biệt so với các phương pháp chỉ dùng spectrogram. Các đổi mới chính:

Gated Linear Units (GLUs) cho activation
LSTM hai chiều giữa encoder và decoder
Kết nối skip từ encoder đến các lớp decoder

Kiến trúc: U-Net waveform thuần với BiLSTM
SDR: ~6.3 dB trên MUSDB18
Đổi mới: Mô hình chỉ waveform cạnh tranh đầu tiên

Demucs v2 (2020)

Độ sâu và huấn luyện được cải thiện:

Encoder/decoder sâu hơn (6 lớp → 7 lớp)
Khởi tạo trọng số tốt hơn
Cải tiến augmentation dữ liệu

SDR: ~6.8 dB trên MUSDB18
Đổi mới: Chứng minh mô hình waveform có thể cạnh tranh với phương pháp spectrogram

Demucs v3 / Hybrid Demucs (2021)

Bước đột phá: kết hợp xử lý spectrogram và waveform:

Kiến trúc Dual U-Net (một cho miền thời gian, một cho miền tần số)
Biểu diễn được chia sẻ giữa các nhánh
Kết hợp xuyên miền tại bottleneck

SDR: ~7.5 dB trên MUSDB18
Đổi mới: Tốt nhất của cả hai thế giới — độ chính xác spectrogram + pha waveform

Demucs v4 / HTDemucs (2022-2023)

State-of-the-art hiện tại, thêm Transformers:

Các lớp Transformer trong cả encoder và decoder
Cross-attention giữa các nhánh thời gian và phổ
Self-attention cho các phụ thuộc tầm xa

SDR: 9.20 dB trên MUSDB18-HQ
Đổi mới: Transformers nắm bắt cấu trúc âm nhạc tầm xa

Đi Sâu Vào Kiến Trúc

Cho những người thực hành ML: đây là cách HTDemucs thực sự hoạt động.

Cấu Trúc Cấp Cao

HTDemucs sử dụng kiến trúc đường kép với hai nhánh U-Net song song chia sẻ thông tin:

Kiến Trúc HTDemucs - Mô hình đường kép với các nhánh thời gian và phổ

Nhánh Thời Gian (Xử Lý Waveform)

Nhánh thời gian xử lý các mẫu âm thanh thô:

Encoder: Stack các convolution 1D có stride giảm dần âm thanh
Bottleneck: BiLSTM + self-attention Transformer
Decoder: Các convolution chuyển vị tăng mẫu trở lại độ phân giải ban đầu
Kết nối skip: Kết nối kiểu U-Net từ encoder đến decoder

# Cấu trúc lớp encoder đơn giản hóa
class TemporalEncoderLayer:
    def __init__(self, in_channels, out_channels, kernel_size=8, stride=4):
        self.conv = nn.Conv1d(in_channels, out_channels, kernel_size, stride)
        self.norm = nn.GroupNorm(1, out_channels)
        self.glu = nn.GLU(dim=1)  # Gated Linear Unit
        
    def forward(self, x):
        x = self.conv(x)
        x = self.norm(x)
        x = self.glu(x)  # Output là out_channels // 2
        return x

So Sánh Các Mô Hình Có Sẵn

Demucs cung cấp nhiều mô hình đã được huấn luyện trước. Đây là cách chúng so sánh:

Mô hình	Stem	SDR (giọng hát)	SDR (TB)	Tốc độ	VRAM	Tốt nhất cho
`htdemucs`	4	8.99 dB	7.66 dB	Nhanh	~4GB	Sử dụng chung
`htdemucs_ft`	4	9.20 dB	7.93 dB	Chậm	~6GB	Chất lượng tốt nhất
`htdemucs_6s`	6	8.83 dB	N/A	Trung bình	~5GB	Tách guitar/piano
`mdx`	4	8.5 dB	7.2 dB	Nhanh	~3GB	Hệ thống VRAM thấp
`mdx_extra`	4	8.7 dB	7.4 dB	Trung bình	~4GB	Tốt hơn mdx
`mdx_q`	4	8.3 dB	7.0 dB	Nhanh nhất	~2GB	Xem trước nhanh

Yêu Cầu Hệ Thống

Yêu Cầu Tối Thiểu

Thành phần	Tối thiểu	Khuyến nghị
CPU	Bất kỳ x86_64 hiện đại	4+ cores
RAM	8 GB	16 GB
GPU	Không (CPU hoạt động)	NVIDIA 4GB+ VRAM
Lưu trữ	2 GB	5 GB (cho mô hình)
Python	3.8+	3.10+

Ước Tính Thời Gian Xử Lý

Cho một bản nhạc stereo 4 phút ở 44.1kHz:

Phần cứng	htdemucs	htdemucs_ft
NVIDIA RTX 4090	~30 giây	~60 giây
NVIDIA RTX 3080	~45 giây	~90 giây
NVIDIA RTX 3060	~90 giây	~180 giây
Apple M1 Pro	~120 giây	~240 giây
Intel i7 (CPU)	~8 phút	~15 phút
Intel i5 (CPU)	~15 phút	~25 phút

Sử Dụng VRAM GPU

Yêu cầu VRAM phụ thuộc vào độ dài âm thanh và mô hình:

Sử dụng VRAM theo Mô hình và Độ dài Âm thanh - Yêu cầu bộ nhớ GPU cho các mô hình Demucs khác nhau

Nếu hết VRAM, sử dụng cờ --segment để xử lý theo từng phần nhỏ hơn.

Hướng Dẫn Cài Đặt

Tùy Chọn 1: pip (Đơn Giản Nhất)

Cho hầu hết người dùng chỉ muốn tách track:

# Tạo môi trường ảo (khuyến nghị)
python3 -m venv demucs_env
source demucs_env/bin/activate  # Windows: demucs_env\Scripts\activate

# Cài đặt Demucs
pip install -U demucs

# Xác minh cài đặt
demucs --help

Bạn sẽ thấy:

usage: demucs [-h] [-s SHIFTS] [--overlap OVERLAP] [-d DEVICE]
              [--two-stems STEM] [-n NAME] [-v] ...

positional arguments:
  tracks                Path to tracks

optional arguments:
  -h, --help            show this help message and exit
  ...

Tùy Chọn 2: Conda (Khuyến Nghị cho GPU)

Cho tăng tốc GPU và phát triển ML:

# Clone repository
git clone https://github.com/facebookresearch/demucs
cd demucs

# Tạo môi trường (chọn một)
conda env update -f environment-cuda.yml  # Cho NVIDIA GPU
conda env update -f environment-cpu.yml   # Chỉ cho CPU

# Kích hoạt môi trường
conda activate demucs

# Cài đặt ở chế độ development
pip install -e .

# Xác minh GPU được phát hiện
python -c "import torch; print(f'CUDA available: {torch.cuda.is_available()}')"

Sử Dụng Cơ Bản

Tách Một Track

Lệnh đơn giản nhất:

demucs bai_hat.mp3

Cấu trúc output:

Cấu trúc thư mục output của Demucs hiển thị các stem đã tách

Các Trường Hợp Sử Dụng Phổ Biến

Trích xuất chỉ giọng hát (tạo karaoke):

demucs --two-stems vocals bai_hat.mp3

Output: vocals.wav và no_vocals.wav (nhạc nền)

Trích xuất chỉ nhạc nền:

demucs --two-stems vocals bai_hat.mp3
# Sau đó sử dụng file no_vocals.wav

Xử lý nhiều file:

demucs bai_hat1.mp3 bai_hat2.mp3 bai_hat3.mp3

Output dạng MP3 thay vì WAV:

demucs --mp3 --mp3-bitrate 320 bai_hat.mp3

Sử dụng mô hình chất lượng cao nhất:

demucs -n htdemucs_ft bai_hat.mp3

Khi Nào DIY Hợp Lý

Hãy thành thật về khi nào chạy Demucs cục bộ có ý nghĩa:

Tình huống	DIY Demucs	Dịch vụ Cloud (StemSplit)
Khối lượng xử lý	Khối lượng cao (100+ bài)	Sử dụng thỉnh thoảng
Phần cứng	Có GPU tốt	Chỉ CPU hoặc không có GPU
Kỹ năng kỹ thuật	Thoải mái với Python/CLI	Thích GUI
Yêu cầu riêng tư	Cần giữ âm thanh cục bộ	Cloud chấp nhận được
Ngân sách	Có thời gian, không có tiền	Có tiền, không có thời gian
Tùy chỉnh	Cần fine-tune mô hình	Tách tiêu chuẩn đủ
Xem trước trước khi trả	Không có	Xem trước 30 giây miễn phí

FAQ

Demucs có miễn phí không?

Có. Demucs là mã nguồn mở theo giấy phép MIT, miễn phí cho sử dụng cá nhân và thương mại. Các mô hình cũng có sẵn miễn phí.

Tôi có thể sử dụng Demucs thương mại không?

Có. Giấy phép MIT cho phép sử dụng thương mại không giới hạn. Bạn có thể sử dụng stem đã tách trong các bản phát hành thương mại, xây dựng sản phẩm trên Demucs, v.v.

Sự khác biệt giữa Demucs và Spleeter là gì?

Khía cạnh	Demucs	Spleeter
Nhà phát triển	Meta AI	Deezer
Kiến trúc	Hybrid Transformer	U-Net đơn giản
Chất lượng (SDR)	~9.2 dB	~5.9 dB
Xử lý	Waveform + Spectrogram	Chỉ Spectrogram
Tốc độ	Chậm hơn	Nhanh hơn
Phát hành	2019 (v1), 2023 (v4)	2019

Demucs tạo ra chất lượng cao hơn đáng kể nhưng yêu cầu nhiều tính toán hơn.

Tôi có cần GPU không?

Không, nhưng nó giúp đáng kể. Xử lý CPU hoạt động nhưng chậm hơn 5-10 lần. GPU NVIDIA hiện đại với VRAM 4GB+ được khuyến nghị cho thời gian xử lý hợp lý.

Xử lý mất bao lâu?

Phụ thuộc vào phần cứng và mô hình:

GPU (RTX 3080): ~45 giây cho bài hát 4 phút
CPU (i7 hiện đại): ~8-15 phút cho bài hát 4 phút

Demucs hỗ trợ những định dạng âm thanh nào?

Đầu vào: MP3, WAV, FLAC, OGG, M4A, và bất cứ thứ gì FFmpeg có thể decode. Đầu ra: WAV (mặc định), MP3 (với cờ --mp3).

Demucs có thể tách nhiều hơn 4 stem không?

Có. Sử dụng htdemucs_6s để tách 6 stem:

Giọng hát
Trống
Bass
Guitar
Piano
Khác

Làm sao để cập nhật Demucs?

pip install -U demucs

Cộng Đồng Sản Xuất Âm Nhạc Việt Nam và Demucs

Cộng đồng sản xuất âm nhạc Việt Nam đang phát triển mạnh mẽ trong những năm gần đây, với ngày càng nhiều nhà sản xuất trẻ tìm đến các công cụ mã nguồn mở như Demucs để tách stem và tái sử dụng âm thanh. Trong bối cảnh V-pop đang bùng nổ — với những nghệ sĩ như Sơn Tùng M-TP, Đen Vâu, và Hoàng Thùy Linh liên tục ra mắt những sản phẩm âm nhạc chất lượng cao — nhu cầu phân tích và học hỏi từ các bản phối của nhạc Việt ngày càng tăng. Demucs cho phép các nhà sản xuất tách riêng từng nhạc cụ để nghiên cứu cách phối âm, lấy mẫu âm thanh, hoặc tạo remix sáng tạo mà không vi phạm bản quyền gốc.

Cộng đồng nhạc sĩ và nhà sản xuất Việt Nam trao đổi về Demucs chủ yếu qua các nhóm Facebook như "Nhà Sản Xuất Âm Nhạc Việt Nam" và "Beat Maker Việt Nam", cũng như các server Discord dành riêng cho cộng đồng âm nhạc điện tử trong nước. Công cụ mã nguồn mở đặc biệt được ưa chuộng ở Việt Nam vì giúp tiết kiệm chi phí đáng kể so với phần mềm thương mại — điều này phù hợp với văn hóa sử dụng phần mềm miễn phí vốn rất phổ biến trong cộng đồng sáng tạo Việt. Nhiều tutorial cài đặt và sử dụng Demucs bằng tiếng Việt đã xuất hiện trên YouTube và các diễn đàn âm nhạc trong nước.

Một ứng dụng thực tiễn quan trọng của Demucs trong bối cảnh Việt Nam là việc tách stem từ nhạc truyền thống như nhạc đỏ, nhạc quê hương và nhạc trẻ để số hóa và bảo tồn. Các nhà sản xuất còn dùng Demucs để cô lập giọng hát của ca sĩ nổi tiếng nhằm tạo backing track phục vụ các show âm nhạc trực tiếp. Nền tảng nhạc số Zing MP3 và NhacCuaTui — hai ứng dụng nghe nhạc hàng đầu tại Việt Nam với hàng chục triệu người dùng — cũng là nguồn âm thanh chất lượng cao mà nhiều nhà sản xuất dùng làm đầu vào cho Demucs. Với sự phát triển của thị trường âm nhạc Việt Nam, nhu cầu ứng dụng AI trong sản xuất nhạc như Demucs chắc chắn sẽ tiếp tục tăng mạnh.

Kết Luận

Demucs đại diện cho tiền tuyến của tách nguồn âm nhạc được hỗ trợ bởi AI. Dù bạn là nhà sản xuất đang cô lập sample, nhà nghiên cứu đang đẩy xa ranh giới của audio ML, hay chỉ là ai đó muốn tạo track karaoke — hiểu cách công nghệ này hoạt động cho bạn nhiều quyền kiểm soát hơn đối với kết quả.

Đối với hầu hết người dùng, con đường dễ nhất là sử dụng dịch vụ quản lý cơ sở hạ tầng. Đối với người dùng nâng cao và người thực hành ML, chạy Demucs cục bộ cung cấp khả năng kiểm soát và tùy chỉnh tối đa.

Sẵn Sàng Thử Tách Stem?

Bạn đã thấy công nghệ hoạt động như thế nào. Bây giờ hãy trải nghiệm nó.

Tùy chọn 1: Tự chạy — Làm theo hướng dẫn này để thiết lập Demucs cục bộ.

Tùy chọn 2: Bỏ qua thiết lập — StemSplit chạy Demucs htdemucs_ft trên cloud. Upload bài hát của bạn, xem trước 30 giây miễn phí, và tải về stem chất lượng phòng thu. Không cần Python.

Dùng Thử StemSplit Miễn Phí →