我有一段跳绳的音频如何识别里面跳了多少下?

Fingerprinting 是用来做精准匹配音频的，核心算法是特征提取和 Hash 累积匹配，跟你说的 “从开始一点一点的截取音频, 直到找到一个匹配” 相差挺远的。而且 FP 也不是用来做一个没有原始特征的这种模糊识别的算法，你这种需求直接从频谱里找竖向的峰值就好了。

这个 dejavu 只用了一个 local max 来找特征，算是最 naive 的方法了，实际的比如 Shazam 的 FP 算法要复杂的多。不过你只是找跳绳的声音参考这个的 get_2D_peaks 基本上也足够了。

blaxmirror

2018-02-09 13:38:18 +08:00

提供一个思路，如果杂音不明显的话，用软件直接先转成音频的波形图（应该也有库可以完成这一步吧），然后画一条线看看，有多少个波峰超过这条线，就转换成了图形的问题。
如果能导出音频的波形图数据出来，那也可以说是数学问题了。（可以参考各种 xx 色谱的计算机处理）

仅供参考

ai277014717

2018-02-09 13:59:41 +08:00

可以用机器学习。

picasso250

2018-02-09 14:32:32 +08:00

傅里叶变换

第一项的周期就是结果.

douglas1997

2018-02-09 14:38:39 +08:00 via iPhone

@ai277014717 训练样本呢？

ai277014717

2018-02-09 15:20:56 +08:00

@douglas1997 自己在不同环境差异明显最佳，录一些跳绳的声音就可以采集样本。具体怎么计算我也不懂。斯坦福公开课机器学习第一节就有经过机器学习后将 KTV 声音分离的介绍，原理是用两个 mic。

sitiao

2018-02-09 16:52:53 +08:00

1. 把跳绳的声音一段段切出来，10 段~20 段就可以了，作为模板；模板越多越好；最好选取不同人、不同跳绳的录音；
2. 模板片段提取 MFCC 系数，每个片段的 MFCC 系数做一下平均，作为整个片段的模板；多个模板可以再以下聚类，缩减一下模板数量，假设最后剩下 N 模板。
3. 测试片段的 MFCC 特征序列与 N 模板算一下余弦相似度，每个 MFCC 系数与任意一个模板的相似度超过阈值 t1，则标记为 1，未超过的标记为 0 ；
4. 对测试片段标记为 0~1 的序列做一个 5~10 点平滑，基本就可以用了。

比较简单粗暴，估计误识别会很高。

sitiao

2018-02-09 16:55:03 +08:00

@mdluo 说的是对的，那个库适合做音频指纹检索，对这个 case 不太适合。