とある音声データを、0.1秒ごとに音声認識して逐次表示させていた。
pass1_bestの後が認識結果。
0.4秒後
pass1_best: と
0.5秒
pass1_best: これ
0.6秒
pass1_best: 俺 の
俺の?
0.7秒
pass1_best: 俺 の 中
…俺の中?
(ここらへんで嫌な予感がしだす)
0.8秒
pass1_best: 俺 の 中 に
やばい待ておいやめr
0.9秒
pass1_best: 俺 の 中 に も なっ
よ、よかった…
その後の経過は以下の通り。
1.0秒
pass1_best: 俺 の 中 に 話し て
1.1秒
pass1_best: 俺 の 中 に 話し て 会員
ほんとに危なかった。
1.2秒
pass1_best: 俺 の 中 に 話し て 会話 し て
何言ってんだ
1.3秒
pass1_best: 俺 の 中 に 話し て 会話 し て 、
1.4秒(最終結果)
sentence1: 俺 の 中 に も 無し で 借り まし て 。
分かる人には分かるけど、1-passによる結果なので認識精度はすこぶる悪い。
実際にどんな音声だったかはわからないけど、コーパス音声だから真面目な会話音声だと思う。
音声認識こわい。