「Amazon Transcribe」音声データ→文字データの変換サービス | 株式会社ちらし屋ドットコム

本社オフィスより。

たまには、 IT会社らしい記事を。

Amazon Transcribe というサービスについてご紹介します。

「Amazon Transcribe」は、最近、日本語対応したサービスで「音声データを文字データに変換」してくれるサービスです。
（文字起こし作業と表現すると、イメージがつきやすいかと思います）

録音した音声データを、この「Amazon Transcribe」文字データ（テキスト）にアップロードすると、自動で文字データにしてくれるというサービスです。

Amazonと聞くと全ての人が利用できそうですが、このAmazon Transcribeというサービスは、全ての人が利用できるわけではありません。また、Amazonプライム会員なら使えるというサービスでもありません。

では、どんな人が利用できるのかというと、「Amazon Web Service（AWS）」というAamazonのクラウドサーバサービスを使っている人が限定で利用できます。

当社では、AWSを使っているため早速試してみました。利用したデータは、当社採用ページの原稿を作成するために取材した時の音声データです。

こちらの画像のような文字データに変換されました。

「はい、それではそうなんですけどもこちらのお母さんお調べてきっかけって・・・」という、到底意味が分からない残念な文字データに変化されました。

ちなみに、この音声データが文字データに変換されるまでに掛かった時間は

42分の音声データ→開始より8分で完了
16分の音声データ→開始より6分で完了

という驚くべき速度でした。

先に試した音声データは、雑音も入っており、マイクがとても遠い印象でしたので、もう一度別のデータで試してみました。（Amazonさんがこんなに精度が悪いわけない！ということで）

再録音した短い音声データはこちら（音量にご注意を）

この音声データに対して変換された文字データはこちらの通りです。

どうでしょうか。

「ちゃんとサンプリング出来る距離で録音すればしっかり取れるかもしれないですね。そうかもしれませんね。」とほぼ、音声データ通りの文字データが提供されました。

Googleドキュメントにも、下記画像のような「音声入力からの文字データ変換」機能があったと思います。色々はソフトを組み合わせ音声データの変換もできるようですが・・（こちらは試していません）

今回、試してみた感想ですが、文字起こしを自動化するためには、録音した音声データの「質」がとても重要なんだと思いました。これは、人間が音声データから文字起こしする時も同じですよね。

変換スピードも早く、これからさらに認識精度・自動化精度も向上すること間違いなし、と考えると、注目の変換サービスの1つですね。

ちなみに、Amazon Transcribeは無料ではありません。アップロードする音声データの長さ（容量）によって課金される仕組みです。

今回テストした30分程度の音声データの場合、0.72ドル（日本円で80円未満）ほど費用がかかります。激安ですね！

1時間程度の音声データでも約160円。やっぱり激安ですね！

大量の文字起こしが必要で困っている・・・そんな方はお気軽にお問い合わせください。