-
Notifications
You must be signed in to change notification settings - Fork 60
Open
Description
学长您好,我基于您的基础上在流式推理上进行了探索,也读过ISSUE当中几个有关因为因果性实现不了实时的讨论,并做了一些实践,想请教下您。
然而我一开始尝试的是将一长度为60s的语音,基于以下命令:
ffmpeg -i input.wav -ss 00:00:xx -t 00:00:01 output.wav
编写一个bash脚本,切割成60个.wav文件,通过inference增强后再使用ffmpeg进行拼接。
然而我发现了一个问题: 包含人声的片段的1s依旧会得到增强,然而在一些raw语音是静默的片段,却会产生啸叫。
以下三张为语谱图,从上到下依次为原声,直接增强,基于1s为片段的增强拼接合成:

可以在语谱图上发现也会出现一些冲激。
然而并不是只要是silence的片段,就会产生啸叫,为此我做了以下实验:
wav = 0.0000001*np.random.randn(100000,) 生成一个能量极小的白噪声。
采样率为16k,我把其保存成.wav文件再做增强,同样地,也尝试过分割后增强,但是结论是并没有啸叫,只有白噪声本身被增强。
想请问下您基于算法原理,作为作者对这类问题的思考是怎样的?
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels