标签:ASR, Python, Keras, CTC
最近在自己动手搭建一个中文语音识别系统,因为也是入门阶段,所以比较吃力,直到在GitHub上找到了一个已经在做的开源工程,找到了做下去的动力,附上原作者项目的GitHub地址:A Deep-Learning-Based Chinese Speech Recognition System 这位作者人非常好,给予了我不少启发。那么在这里也附上我自己工程的地址:ASR 现在工程还处于起步阶段,虽然跑出了一些结果,但并不是很出色,仍旧在做一些调整,有不错的结果的时候就去更新GitHub,那现在就以本文来梳理一下搭建的思路。
在最开始,先介绍一下我使用的数据集。
我所使用的数据集是清华大学THCHS30中文语音数据集。 data_thchs30.tgz OpenSLR国内镜像 OpenSLR国外镜像 该数据集的介绍请参考THCHS-30:一个免费的中文语料库
在该数据集中,已经分好训练集、验证集和测试集(分别在train、dev、和test文件夹中),其中训练集有10000个样例,验证集有893个样例,测试集有2495个样例,每个样例大约是10秒左右的语音段。
在thchs30这个文件夹里包含了索引性质的文件



通常来讲,语音识别常用的特征有MFCC、Fbank和语谱图。 在本项目中,暂时使用的是80维的Fbank特征,提取特征利用python_speech_features库,将特征提取后保存成npy文件。 提取特征在先前的文章中写了详细的做法:使用python_speech_features提取音频文件特征
对于标签,项目中有dict.txt文件,这个文件的内容是字典,是拼音和汉字的对应,如下图所示。
##三、模型搭建
待更新....