音频文件生成乐谱的工具有吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
junchenghe
V2EX    程序员

音频文件生成乐谱的工具有吗?

  •  
  •   junchenghe 2023-09-06 09:53:34 +08:00 3632 次点击
    这是一个创建于 824 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在在扒谱的时候,花费了太多时间,所以想有没有一种工具可以直接通过上传音频文件,在选择某种乐器类型,提取出音乐特征,最终生成乐谱,同时可以在线进行编辑的一个工具呢?

    在找了很多工具之后,有的工具是可以提供部分功能,暂未找到可以在一个工具上一键生成的,所以我现在想是不是可以开发这么一套工具。当然我在查阅了很多资料后,发现在提取特征这一步很有难度。我理解大概处理流程如下,如有非常了解的朋友,我们可以聊聊!

    1.音频文件上传,根据选择需要分离的音频类型,分离出其中的音频,如(鼓、人声、吉他、贝斯),当然这一步可能是需要对音频降噪、增强等
    2.根据分离出的音频,提取其中的音乐特征,提取的方式有多种(短时傅里叶变换、离散余弦变换、离散小波变换、梅尔频谱和梅尔倒谱、恒 Q 变换)等算法,当然还有很多的开源库:librosa 、essentia 等
    3.通过提取出的音乐特征与乐谱中需要表示的音乐标记作映射
    4.最后通过这些音乐特征来绘制乐谱,生成乐谱。

    当然这里面最难的肯定是对音乐特征的提取,由于在音频中可能会参杂很多的其他杂音,导致通过人工智能、机器学习也很难去分析出其中的音乐特征值。有兴趣的话,可以邮件联系我,我们一起探讨下吧!

    email:aGVqdW5jaGVuZzk0QGdtYWlsLmNvbQ==
    37 条回复    2025-03-07 14:11:29 +08:00
    wekecher
        1
    wekecher  
       2023-09-06 10:44:46 +08:00
    AudioScore Ultimate 、ScoreCloud 呢?
    murmur
        2
    murmur  
       2023-09-06 10:48:27 +08:00
    别探讨了,现在最新的 ai 模型已经能扒钢琴、鼓、人声、吉他、贝斯了,然后单一乐器转换 midi 就很好了

    不过依然需要显卡

    我不知道你的理解有什么问题,但是我知道最新的模型总共有 40gb
    cq65617875
        3
    cq65617875  
       2023-09-06 10:49:11 +08:00
    @murmur 来个地址 我观摩观摩?
    murmur
        4
    murmur  
       2023-09-06 10:50:20 +08:00   1
    @cq65617875 uvrs 还是 uvr5 ,这个因为软件是个图片我也认不清楚,我下载的是 4g 的基本版,群友说下载完整模型是 40g

    实测 5800u 跑一首歌需要 10 分钟,3050 不认卡没法用 gpu 加速
    cnuser002
        5
    cnuser002  
       2023-09-06 11:22:46 +08:00
    @murmur 谢谢,很感兴趣,我去试试
    lvtuyukuai
        6
    lvtuyukuai  
       2023-09-06 11:30:43 +08:00
    ispinfx
        7
    ispinfx  
       2023-09-06 11:31:26 +08:00
    转可用谱还是很难的,出来后离不开一些人工的修改。当然如果你只是随便要具能听的 MIDI ,当我没说。。
    tingyunsay
        8
    tingyunsay  
       2023-09-06 11:58:12 +08:00
    转出来了,和弦怎么配更还原,这些都是问题,简单的和弦自己也能听出来,扒谱本身就是根据每个人的思路去定制化的东西,你要通用那就只能给出最基础的和弦音了吧
    murmur
        9
    murmur  
       2023-09-06 11:58:42 +08:00
    @lvtuyukuai UVR5 是有二级模型的,先用 1 级模型分离人声和伴奏,然后二级模型再拆解乐器,目前最好的模型 cpu 跑一次要 1 个小时,所以才要显卡加速,建议直接下网友弄好的网盘版系在
    junchenghe
        10
    junchenghe  
    OP
       2023-09-06 12:03:08 +08:00
    @murmur 有链接吗?您说的 uvr5 这个是做音频分离,但是分离出的乐器音频到分析其中的音乐特征的生成乐谱的,我暂时还没看到有的,您有知道的吗?
    junchenghe
        11
    junchenghe  
    OP
       2023-09-06 12:05:36 +08:00
    @tingyunsay 是的,像吉他这种和声还原是很难的,每个人编排都不一样,但是像鼓,都是标准记谱,应该是可以做的
    junchenghe
        13
    junchenghe  
    OP
       2023-09-06 13:10:22 +08:00
    @murmur 好的,感谢
    iX8NEGGn
        14
    iX8NEGGn  
       2023-09-06 14:15:12 +08:00 via iPhone
    太难了,钢琴应该是最好处理的了,都无法做到。
    比如 2020 年时字节就发了篇钢琴转录的论文,并提供了代码,准确度有百分之九十五以上,虽然生成的 midi 用来听还不错,但想生成人类友好可读的谱子,感觉很难。
    tingyunsay
        15
    tingyunsay  
       2023-09-06 14:16:30 +08:00
    @junchenghe 我倒是真希望有这么个好用的工具出来,现在找一张参考性还不错的谱子太难了,要自己扒谱太耗费时间,mark 一下,楼主加油
    iX8NEGGn
        16
    iX8NEGGn  
       2023-09-06 14:42:03 +08:00 via iPhone
    音轨分离和音符转录反倒不是最难的,已经有较为成熟的开源项目,最难的反倒是最后一步,如何将提取到的音符的音高和时值转化为谱子。
    因为人类弹奏时的时值是不标准的,比如同样是四分音符,前一个按下的可能是 0.5 秒,后一个按下的是 0.3 秒,很难确定该把它量化成四分音符还是十六分音符,时值更短的音符就更会出现这种情况了,这会导致音符对不齐,得到的谱子是错乱的。
    murmur
        17
    murmur  
       2023-09-06 14:52:13 +08:00
    @tingyunsay 其实可以花钱买,yamaha music data 可以买日语歌,tw 的什么著出版社可以买流行歌的谱子,基本都是 1usd 一张的价格
    murmur
        18
    murmur  
       2023-09-06 14:53:36 +08:00
    @iX8NEGGn 这不就是标准的量化么,大概是 15 年前做 midi 的时候还一群人吹牛逼说人的演奏不准确所以 midi 的音符也不应该是固定位置和固定量化,后来这群吹逼的人闭嘴之后所有的乐器都是做了量化的
    murmur
        19
    murmur  
       2023-09-06 14:55:39 +08:00
    这里典型的其实就是精忠报国,这首歌你无论机器测速还是自己 tap tempo 都是测不出整数值的,说明鼓手可能是真的手打出来,后面的流行歌随便找个测速软件都能测出整数

    有个例外是锦鲤抄,按 3/4 测速和 6/8 是不一样的,一个是 87.5 一个是 175
    iX8NEGGn
        20
    iX8NEGGn  
       2023-09-06 15:00:43 +08:00
    @murmur 你能推荐一个将人类弹奏的 midi 量化得比较好的软件吗,就钢琴流行曲五六级级别的曲子就行,我试了很多,没一个量化后能达到友好可读级别的,更别说古典奏鸣曲哪些难度的了。
    murmur
        21
    murmur  
       2023-09-06 16:01:31 +08:00
    @iX8NEGGn 现在的 AI 辅助扒带只能用在抖音级别的口水歌的,我相信 AI 是真的学会了乐理,他能在混音之后根据自己的知识猜出来原来的乐器是哪个套路,再加上口水歌都是套路和弦

    古典乐并不适用
    cjd6568358
        22
    cjd6568358  
       2023-09-06 16:37:21 +08:00
    搭车问一个,有没有通过上传钢琴谱生成音频文件的?
    murmur
        23
    murmur  
       2023-09-06 16:47:27 +08:00
    @cjd6568358 上传的钢琴谱没有力度也没有踏板,演奏出来难听的要死
    iX8NEGGn
        24
    iX8NEGGn  
       2023-09-06 16:49:01 +08:00
    @cjd6568358 你说的钢琴谱如果是指图片形式的谱,那你要找的是 Optical Music Recognition (光学音乐识别)软件,将图片谱转换成数字谱( musicxml ),然后随便一个打谱软件都能生成音频。我用过的 OMR 软件有:

    - 收费
    - [CapellaScan (体验较好)]( https://www.capella-software.com/us/index.cfm/products/capella-scan/info-capella-scan/)
    - [PhotoScore (体验较好)]( https://www.neuratron.com/photoscore.htm)
    -
    - [SmartScore (体验一般)]( https://www.musitek.com/)
    - [ScanScore (体验一般)]( https://scan-score.com/en/)
    -
    - [SharpEye (体验较差)]( http://www.visiv.co.uk/)
    - [PDFtoMusic Pro (体验较差)]( https://www.myriad-online.com/en/products/pdftomusicpro.htm)
    -
    - [PlayScore 2 ( IOS 端)]( https://www.playscore.co/)
    - 开源
    - [Audiveris ( Java )]( https://github.com/Audiveris/audiveris)
    - [Mozart ( Python )]( https://github.com/aashrafh/Mozart)
    - [Oemer ( Python )]( https://github.com/BreezeWhite/oemer)
    - 在线
    - [Soundslice (收费,基于深度学习)]( https://soundslice.com)
    - [Maestria (收费,基于深度学习)]( https://newzik.com/maestria)
    cjd6568358
        25
    cjd6568358  
       2023-09-06 17:05:23 +08:00
    @murmur 不是会有重音记号和延音记号吗?虽然大概率没有人弹的专业,但是最起码该有的节奏不会错
    cjd6568358
        26
    cjd6568358  
       2023-09-06 17:05:38 +08:00
    @iX8NEGGn 感谢
    hesetiema
        27
    hesetiema  
       2023-09-06 17:15:52 +08:00
    之前看到过一个在线工具,地址: https://vocalremover.org/zh/splitter-ai
    hesetiema
        28
    hesetiema  
       2023-09-06 17:17:22 +08:00
    还有类似的,地址: https://songdonkey.ai/
    hesetiema
        29
    hesetiema  
       2023-09-06 17:20:20 +08:00
    没有深度使用过,但估计复杂的功能还是实现不了
    tingyunsay
        30
    tingyunsay  
       2023-09-06 17:27:56 +08:00
    @murmur 我花钱买谱子花了几百块目前为止,而且能买到的谱子都是大众化的,真的听到那种很想要弹的歌只能自己慢慢扒了,找别人太贵了,几百上千一首歌吧
    cnbatch
        31
    cnbatch  
       2023-09-06 20:29:50 +08:00
    @iX8NEGGn 古典奏鸣曲就没必要扒谱了吧,找到乐谱的麻烦程度并不高

    如果是指现代作曲家创作的新奏鸣曲,那倒是未必能容易地找到乐谱
    iX8NEGGn
        32
    iX8NEGGn  
       2023-09-06 20:36:02 +08:00
    @cnbatch 我并不是想要说扒古典,而是想说难度稍微大点的就量化不来,只有那些单音儿歌或者套路和弦的曲子才能量化好。
    junchenghe
        33
    junchenghe  
    OP
       2023-09-07 10:07:48 +08:00
    @iX8NEGGn 是的,就是想问问没有做过这方面的朋友
    junchenghe
        34
    junchenghe  
    OP
       2023-09-07 10:10:19 +08:00
    鼓是不是做这方面更简单些啊?
    weiping
        35
    weiping  
       276 天前
    @iX8NEGGn 你好,冒昧的问下,使用了这么多 OMR 软件,哪个效果最好,识别准的,开源和收费分别是哪个比较好的?
    iX8NEGGn
        36
    iX8NEGGn  
       276 天前 via iPhone
    @weiping 收费的 CapellaScan 综合来说体验最好,可离线运行、输入格式支持多、准确度也还行、能对 OMR 出来的谱子直接进行修改校验,但缺少 PhotoScore 的一个功能,就是光标同时对准原谱和 ORM 普的一个音符进行校验,CapellaScan 只提供按行级别的,而新手还是比较需要这种音符级别的对准校验。

    开源的都不太行,下载运行麻烦,准确度也一般,且大都不提供编辑校验功能,只有 ORM 功能。

    高清的图片对 CapellaScan 的识别准确度很重要,可以用阿普升图之类开源 AI 图片放大工具来对模糊的谱子先进行高清化处理。
    weiping
        37
    weiping  
       276 天前
    @iX8NEGGn 太感谢分享了。我正在调研这块内容,本来想做一个 OMR 应用的。扫描识别,显示五线谱,在播放,修改调整的。现在的主要难点是 OMR ,早上我也装了 Oemer, 但是效果不好,一是太慢了,一张需要 2-3 分钟,而是准确度也不行。看来这条路现在还走不通啊,即使做出来了,用户体验也不好。我是一个个人开发者,有什么需求可以尽管 @weiping ,我们可以讨论分享。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5244 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 45ms UTC 07:21 PVG 15:21 LAX 23:21 JFK 02:21
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86