Skip to content

有关流式推理的探索。 #17

@Plutoisme

Description

@Plutoisme

学长您好,我基于您的基础上在流式推理上进行了探索,也读过ISSUE当中几个有关因为因果性实现不了实时的讨论,并做了一些实践,想请教下您。

然而我一开始尝试的是将一长度为60s的语音,基于以下命令:
ffmpeg -i input.wav -ss 00:00:xx -t 00:00:01 output.wav
编写一个bash脚本,切割成60个.wav文件,通过inference增强后再使用ffmpeg进行拼接。

然而我发现了一个问题: 包含人声的片段的1s依旧会得到增强,然而在一些raw语音是静默的片段,却会产生啸叫。
以下三张为语谱图,从上到下依次为原声,直接增强,基于1s为片段的增强拼接合成:
截屏2022-11-09 下午4 51 05

可以在语谱图上发现也会出现一些冲激。

然而并不是只要是silence的片段,就会产生啸叫,为此我做了以下实验:
wav = 0.0000001*np.random.randn(100000,) 生成一个能量极小的白噪声。
采样率为16k,我把其保存成.wav文件再做增强,同样地,也尝试过分割后增强,但是结论是并没有啸叫,只有白噪声本身被增强。

想请问下您基于算法原理,作为作者对这类问题的思考是怎样的?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions