有关流式推理的探索。

学长您好，我基于您的基础上在流式推理上进行了探索，也读过ISSUE当中几个有关因为因果性实现不了实时的讨论，并做了一些实践，想请教下您。

然而我一开始尝试的是将一长度为60s的语音，基于以下命令：
ffmpeg -i input.wav -ss 00:00:xx -t 00:00:01 output.wav
编写一个bash脚本，切割成60个.wav文件，通过inference增强后再使用ffmpeg进行拼接。

然而我发现了一个问题： 包含人声的片段的1s依旧会得到增强，然而在一些raw语音是静默的片段，却会产生啸叫。
以下三张为语谱图，从上到下依次为原声，直接增强，基于1s为片段的增强拼接合成：
![截屏2022-11-09 下午4 51 05](https://user-images.githubusercontent.com/48951434/200784245-804e9ac7-4957-4f8f-b270-c8416c82c35e.png)

可以在语谱图上发现也会出现一些冲激。

然而并不是只要是silence的片段，就会产生啸叫，为此我做了以下实验：
wav = 0.0000001*np.random.randn(100000,) 生成一个能量极小的白噪声。
采样率为16k，我把其保存成.wav文件再做增强，同样地，也尝试过分割后增强，但是结论是并没有啸叫，只有白噪声本身被增强。

想请问下您基于算法原理，作为作者对这类问题的思考是怎样的？





Provide feedback

Saved searches

Use saved searches to filter your results more quickly

有关流式推理的探索。 #17

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

有关流式推理的探索。 #17

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions