Heecheol Cho
Heecheol Cho
For causal cut, the last frame was cut off. To keep the length, the 1st frame was padded.
@KinamSalad I wasn't thinking of a jit decoration. I only considered a simple implementation.
I simplified the code using tf.layers.conv1d. See the [Issue](https://github.com/ibab/tensorflow-wavenet/issues/370)
@begeekmyfriend. Is begeekmyfriend's model changed from the original model? keithito's model has 3 GRU in the decoder. begeekmyfriend's model has 2 GRU in the decoder. Is it right? data:image/s3,"s3://crabby-images/fe16a/fe16ae2ee2ca096f665271bdcc1fd6ea39bfb6f8" alt="begeekmyfriend"
그림6에서 세번째 t=3 frame이라고 되어 있는 부분에서 질문있습니다. t=2 frame에서 'g'를 예측했다면, encoder time step의 증가 없이 t=2 frame이 한번 더 사용되어야 하지 않나요 (그림에서 붉은 화살표가 위로 향하는 상황)
그림 4가 두번 있네요. 하나는 그림 5로 수정 필요.
MFCC결과에서 첫번째 열벡터(log mel spectrogram의 합)를 버리는 이유를 아래 그림으로 이해해도 될 것 같습니다. (그림에서는 가로/세로가 바뀌어 있습니다. 행벡터로 보시면 됩니다.) data:image/s3,"s3://crabby-images/73e73/73e73b84cd1c7816039cf7a662beaf404d21343f" alt="MFCC2" 왼쪽은 제일 아래쪽 라인의 값들이 너무 작어서(음수), 다른...
사소한 오타: 음향 특징(Acoustic Feture)이 바로 MFCCs(Mel-Frequency Cepstral Coefficients)입니다 Feture --> Feature
"encoder의 output이 한 라인씩 들어가기 때문에 t는 계속 증가하고 blank함수가 출력으로 나올때는 그것을 생략하는 의미입니다." 이 부분이 좀 이해가 되지 않는데요. blank가 나올 때까지 증가하는 것은 encoder time step t가...
제가 했을 때는, 1080ti, batch_size=8 인경우에 iteration당 약 1초 정도 입니다.