音声ファイルからテキストに文字起こし!【Amazon Transcribe】が日本語対応したので実践してみた!

AWS

こんにちは。

音声→テキストに変換するAWSの「Amazon Transcribe」がついに日本語対応しました!

せっかくなら精度や時間など試してみたいと思ったので、試してみました。

これで文字起こしの在宅ワークをしたら月収40万のサラリーマンと同じくらいの時給効率になります。

Amazon Transcribeとは?

「Amazon Transcribe」とは、AWS(Amazon Web Service)のサービスの一つです。

音声ファイル(MP3等)から文字を抽出し、テキストにしてくれます。

AWSは従量課金制なので、使った分だけ料金がかかります。
Amazon Transcribeの料金は以下の通りです。

1 秒あたり 0.0004USD

つまり1時間の音声データだと 3600秒×0.0004USD = 1.44USD

日本円換算だと、1時間の音声ファイルあたり、160円程度です

手順

さて早速やっていきましょう。

まずAWSにログインし、「Amazon Transcribe」と検索します。

「Create transcription job」をクリックします。

そのjobの名前と、対象言語を入力します。

S3に対象の音声ファイルを置いておきます。
リージョンはオハイオにしか今のところ対応していません

オハイオにバケットを作成してください。


S3のバケット作成

今回は適当なしゃべっているファイルで試したかったので、以下の会議ファイルで試してみました。
約1時間の音声ファイルです。
会議の音声データ(議事録ができるまでの分) | 伊賀市

S3に置いたファイルの「コピーパス」をクリックします。

コピーパスを取得します。

Amazon Transcribeの「input file location on s3」に先ほど取得したS3のパスを入力します。
その他は特にデフォルトから変えずにやりました。

output データの設定はデフォルトで、「Create」をクリックします。

すると実行中となります。

約10分ほど待つと完了しました。

「Download full script」をクリックし、結果をダウンロードします。

結果

結果はこんな感じです。

json形式で、本文と言ったタイミングがデータとして出力されました。

単語の間にスペースが入力されているようです。
英語なら単語ごとにスペースが入るのでいいですが、日本語だと違和感がありますね。

まあ空白を一括置換で削除したら全く問題ないです。

空白を削除するとこんな感じ。
「おはようございますただいまから電話元年第五回伊賀市議会定例会を開会し、ます本日ただ今までの席数は二十四名。会議は成立しました本日の議事日程はお手元に入るの通りでありますなおLENCE]本定例会に説明員として出席していただいて。いるものの逆説敏明はお手元に配布の名簿の通りであります」

句読点の位置が若干気になりますが、ほぼほぼ正しく文字起こしできていますね

活用方法

会議の議事録

これは一番デフォルトな使いかたですね。

会議の音声さえあれば、議事録が完成します。

体裁を整えるだけなので、議事録作成の手間が省けます

字幕をつくる

これはしゃべった部分のタイムスタンプがついたデータで出力されるので、音声ファイルや動画にそのまま字幕を付けるように加工できます!

もちろん多少のミスはあるので、これで大半作って修正すると、圧倒的に効率的になります。

在宅ワークの文字起こしで活躍

クラウドワークスなどで、文字起こしの案件などが募集されています。

展開元:テープ起こし・文字起こしの仕事を探すなら【クラウドワークス】 | 在宅ワーク・内職でテープ起こし・文字起こしのお仕事

記事公開時にクラウドワークスで検索すると150分で6850円の文字起こしの案件がありました。

150分だと「Amazon Transcribe」の料金は400円以下です。
「Amazon Transcribe」で基本的な文字起こしをしてもらって、150分聞きながら体裁を直したら文字起こしが完了します。

つまり2時間半で6850円が手に入るわけです。

なんと時給2340円!

月収40万円のサラリーマンと同じくらいの時給になります。
※40万÷170時間というざっくり計算です。

まとめ

今回はAWSの音声からテキストファイルを起こすサービス「Amazon Transcribe」を実践してみました。

json形式で出力されるので、他のシステムと連携して整形し、自動で議事録生成したり、字幕を作ったりがしやすそうですね。

S3のバケットがオハイオでしか無理なので、ここは早く東京リージョンにも対応してほしいですね。

複数人での会話もある程度聞き分けるようです。
ホントにここ数年の音声認識の技術がすごいですし、ここまで簡単につかえるとは。

いい時代ですね。

コメント

タイトルとURLをコピーしました