音声版reCAPTCHAの新サービス

08.12.09, 10:33

reCAPTCHAは、現在主にスパム避け用途で使われている画像認証、音声認証のCaptchaの大手ですが、
既に画像認証の方では、古い書籍のOCRを人力で補正改善するための提携をおこなっていましたが、
新たに音声認証の方でも、古いラジオ(たぶん著作権切れ)のテキスト起こし改善と提携をはじめる(はじめた)とのこと。

ネタ元:ReCAPTCHA Introduces Enhanced Audio CAPTCHAs to Transcribe Old Radio Shows(Written by Frederic Lardinois / December 8, 2008)

つまり、こちら側から見れば、
入力させるテキストの画像は、文字を変形させたりノイズを加えたものではなくて、既に変形したりノイズの載った劣化文字を利用し、
入力させる音声は、(合成)音声を変形させたりノイズを加えたものではなくて、既にノイズが加わっていたり歪んでいる劣化音声を使うことになりました。
人工的なノイズではなくて、自然なノイズと考えたらいいのかもしれません。

向こう側では、スパム避けしなければならないという無駄な労力を有効利用してくれるわけです。


疑問なのは、実際どれほどの精度があるのかです。
一応、音声認識ソフトで処理できなかったサンプルしか使わないということなので、わかりにくさのハードルは中から高めなんだと思います。

母国語として話している人であっても、母国語として話さない人であっても、くせや訛りなどもあるわけですし、
また画像認証では見えている個別文字をそのまま並べればこと足りますが、音声から文字化するには「正確な綴り」でなければいけません。
日本だと、「恋のマイヤヒ」の例もある通り、人は自分の聞きたいように聞きますwww

http://recaptcha.net/learnmore.html にサンプルがあります。
視覚障害の人がFlash内の「音声のボタン」を押せるのかどうか私にはよくわかりませんが、私が押しても「プラグインが必要です」といわれてしまいました(泣)
すぐ下の、プラグインのない人用のリンクからmp3ファイルをダウンロードして聞いても、そもそもその英会話が聞き取れませんでした(大泣)

追伸:
右下のロゴに、「reCAPTCHA&TM; stop spam. read books.」とあるのは、音声をクリックした時は、今後は、booksではなくradio に換えるなどしてはどうでしょうか。


参考URL:
reCAPTCHA Blog: New Audio reCAPTCHA(December 7, 2008)

トラックバック:
音声認識実験 2(Dreamのお好み情報箱、2008年10月07日)
日本語の音声認識ソフトの使用例です。
「そこそこには」わかるけれど、完璧ではないという微妙なレベルですね。
ニュースでは、特にNHKではアクセシビリティの高い音声なのでしょうが、「ラジオショー」だったら(漫才とか、関西弁の複数人の音声がかぶったりして)認識精度はもっと低いものと思います。
トラックバック (1)
このエントリーへのトラックバックURL :::
http://blog.ptlabo.net/tb.php?id=08120010
reCAPTCHAの音声認証は解り辛い! from Recycler at 09.10.01, 22:35
今週からこのブログでは、いつでも標準のCAPTCHAの代替としてreCPATCHAが使えるようになった。標準のCAPTCHAのところで「try reCAPTCHA」をクリックすればreCAPTCHAによる認証ができるようになって...
コメント (0)
コメントはありません.
コメント投稿
投稿者 :::

コメント(タグは使用できません) :::

url / e-mail(表示されます) :::