北海道に住みたいと言っているだけのブログ

危なかった

とある音声データを、0.1秒ごとに音声認識して逐次表示させていた。

pass1_bestの後が認識結果。

0.4秒後

pass1_best: と

0.5秒

pass1_best: これ

0.6秒

pass1_best: 俺 の

俺の?

0.7秒

pass1_best: 俺 の 中

…俺の中?

(ここらへんで嫌な予感がしだす)

0.8秒

pass1_best: 俺 の 中 に

やばい待ておいやめr

0.9秒

pass1_best: 俺 の 中 に も なっ

よ、よかった…

その後の経過は以下の通り。

1.0秒

pass1_best: 俺 の 中 に 話し て

1.1秒

pass1_best: 俺 の 中 に 話し て 会員

ほんとに危なかった。

1.2秒

pass1_best: 俺 の 中 に 話し て 会話 し て

何言ってんだ

1.3秒

pass1_best: 俺 の 中 に 話し て 会話 し て 、

1.4秒(最終結果)

sentence1: 俺 の 中 に も 無し で 借り まし て 。

分かる人には分かるけど、1-passによる結果なので認識精度はすこぶる悪い。

実際にどんな音声だったかはわからないけど、コーパス音声だから真面目な会話音声だと思う。

音声認識こわい。