突然好奇，消除歌曲中的人声技术上是怎么实现的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1010 天前的主题，其中的信息可能已经有所发展或是发生改变。

例如有一个音频文件，把歌手的声音和乐器分开

得到两个音轨：一个是人声音轨，另一个是乐器部分

音轨

人声

乐器

分开

20 条回复 2023-01-13 02:55:52 +08:00

8eacekeep

2023-01-12 17:40:27 +08:00

乐器一般占高低频，以前就是直接抠。现在人工智的话，大概是分析人声特征吧，不过不论哪一种效果都不咋地，都抠不干净的

Xymmh

2023-01-12 17:46:03 +08:00

利用人声在左右声道里相位相同的原理吧，记得几百块钱的电子琴都有这个功能，还是实时的

n0099

2023-01-12 17:50:41 +08:00

https://en.wikipedia.org/wiki/Fourier_transform
https://en.wikipedia.org/wiki/Fourier_analysis
https://en.wikipedia.org/wiki/Spectrogram
https://en.wikipedia.org/wiki/Chroma_feature

moondark

2023-01-12 17:51:09 +08:00

这种叫做声伴分离技术，用机器学习训练的
最新算法目前对于流行歌曲抠的还可以，对于 RAP 类的不太行

zhuangzhuang1988

2023-01-12 17:54:58 +08:00

可以看下吴恩达的机器学习，无监督学习下面链接直接定位到了那个 DEMO
https://www.bilibili.com/video/BV164411b7dx?t=393.7&p=4
PS: 都是数学

noe132

2023-01-12 18:02:34 +08:00

最简单的就是看声相位置，通常鼓和人声都在声场中间，其他乐器通常在侧位，可以直接分离出来，但是这种看歌曲，而且很多时候效果并不好，还会把鼓点也都移除掉了。以前用 Audition 操作过，很简单只需要按几下按钮就能搞定。
复杂的就不太了解了

KC35

2023-01-12 18:03:03 +08:00

@h0099 谢谢大佬，粗略看了一下，稍微了解了。但是人也傻了。

@zhuangzhuang1988 感谢大佬分享～

刚也查到了字节博士有个开源。相关网站：
https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247594465&idx=3&sn=83a18be3019dbecd6040031618d112dc&chksm=e8d1c693dfa64f85e7db0f5157d533361da6c8b71a9ceacdfc29a28399bd6d0bade7a046014f&token=497180065&lang=zh_CN#rd

https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

github： https://github.com/bytedance/music_source_separation

Yadomin

2023-01-12 18:07:42 +08:00

一直用 https://github.com/deezer/spleeter

zeni123

2023-01-12 18:12:34 +08:00

和人工智能抠图后背景还在那种场景差不多

KC35

2023-01-12 18:12:59 +08:00

@Yadomin 这个可以！

bao3

2023-01-12 18:17:09 +08:00 via iPhone

@Yadomin 感谢分享这个很有用

shakoon

2023-01-12 18:20:48 +08:00

模拟电路里，这是一个滤波器，可以把特定频率的声波减弱，几十年前的卡拉 OK 功放机就有这个功能，当然，效果是有限的，因为有很多伴奏也在人声的这个范围。实际上三十年前的卡拉 OK VCD 是将已经用上面方式去掉人声的伴奏作为一个声道，完整的歌曲作为另一个声道，这样极大方便了使用，也降低了对设备的要求。