TTS GO!

Never put off what you can do today until tomorrow.

【声码器】神经网络声码器

neural vocoder

语音信号的重建 语音信号特点是:高分辨率且短时平稳,因此通过神经网络直接预测语音信号的采样点比较困难,但是其在频域分辨率较低且完整表达了语音信号的特征。因此通常我们把通过stft把语音信号从时域转化到频域,得到其幅度频率普和相位频率谱,此两者是语音信号的完整表达。我们可以通过逆变换得到原始的语音信号。这是通常的语音信号的重建。如果我们有完整的幅度谱和相位谱,就可以生成完整的声音。 通过神经...

【端到端TTS】End-to-End Adversarial Text-to-Speech

EATS

介绍 论文提出了一种真正意义上的端到端TTS模型,通过前馈卷积神经网络和GAN实现了从文本或者音素直接生成波形。 整体的结构由两部分构成:Aligner和Decoder。Aligner由前向卷积神经网络,从原始的未对齐的音素或者文本生成对齐的200hz的隐层;Decoder是GAN-TTS,实现从200hz的隐层上采样到24khz的高质量音频。 虽然在log-mel spect...

【声码器】GAN AND GAN ALGORITHM WITH AUDIO

GAN-AND-GAN-ALGORITHM-WITH_AUDIO

GAN PAPER:Generative Adversarial Nets 介绍 它是一种非监督学习,目标是训练生成器G使之生成数据无限接近于真实数据的分布。它实现了从低维到高维的映射。它的逼近方法是训练一个判别网络和生成网络相互博弈,论文中证明了解的存在性,正确性与唯一性。 理解:面对生成问题的时候,没有直接面对生成模型本身,而是通过可微的神经网络从采样的角度去逼近真实数据分布。 基本结构...

gcc,makefile and cmake

Make

gcc is tool for bulid project makefile(make script) is a shell script, we can write gcc and outher operat cmake can generate makefile on different platforms

wav2mel

wav2mel spectrogram

wav生成mel spectrogram的方法 加载wav文件到浮点数时间序列 注意默认的sr=22050,不想输入采样率又避免使用了默认,需要sr=None mono是bool值,是否转换成单通道。 offset是指一段时间后才开始load音频。 dtype是指定存放的数据类型,默认是float32. wav, source_sr = librosa.load(fpath_or...

Tensorflow,Torch以及Keras的多卡训练

Multi-GPU Training of Tensorflow,Torch and Keras

多卡训练 数据并行:不同的GPU输入不同的数据,运行相同的完整的模型。 每个GPU上的batch_size为总的batch_size除以卡数。 优点:最突出的是加快训练。其他的之后再补充。 指定某个可见:CUDA_VISIBLE_DEVICE = 0 Torch 单卡 指定卡号后把模型和数据存到gpu中。 device= torch.device("cuda:0") net.to(...

期望最大算法

Expectation-maximization algorithm

思路 当使用最大似然估计通过X样本点数据集进行参数$\theta$的估计时,如果模型中存在隐变量z。 原来的MLE是: $$\theta_{MLE}=arg\max_{\theta}p(X|\theta)$$ 现在有了隐变量z,则MLE是: $$\theta_{MLE}=arg\max_{\theta}\sum_{z \in{Z}}p(X,z|\theta)$$ 观测数据的似然没有直接的表达...

SOX

SOX:the Swiss Army knife of audio manipulation

简介 SOX-音频处理转换和处理工具中的瑞士军刀。在音频处理方面命令简洁且高效,配合xargs命令能方便的进行小批量音频数据的处理。能实现如下的功能 单音频的处理:音频的播放速度,采样率,音量,声道数量等。 多音频的合并等。 soxi查看音频文件meta信息。 play播放音频。 sox命令处理流程: Input(s) -> Combiner -> E...

朴素贝叶斯分类器

Naive Bayes classifier

朴素贝叶斯假设 朴素贝叶斯是最简单的有向概率图模型,它的核心思想是条件独立性假设。 朴素贝叶斯假设:在给定类别的情况下,属性(特征)之间是相互独立的。 $${x_{i}}\bot{x_{j}}| y (x!=j)$$ x是p维特征,y是类别,概率模型如下所示: $$y\in\{0,1\},x\in{\mathbb{R}}^{p}$$ 假设动机 朴素贝叶斯假设的动机是简化$P(x|y)$。...

Cheat Sheet

Mathematical formula

LSTM $$\boldsymbol{I}_t = \sigma(\boldsymbol{X}_t \boldsymbol{W}_{xi} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hi} + \boldsymbol{b}_i)$$ $$\boldsymbol{F}_t = \sigma(\boldsymbol{X}_t \boldsymbol{W}_{x...