ライターの仕事の中で、インタビューを文字に起こす作業ってどうにかならないかな?といつも思います。
何度も録音を聞き返しながら、きちんと文章に書き起こすのは、時間も手間もかかって非常に疲れます…
また、クライアントとのミーティングを議事録に起こしたり、文章そのものを音声入力で作成したい人もいるでしょう。
そこで、オンラインで使える文字起こしサービス3種類、同じ音源をもとに仕上がりを比較してみました!
結論から言うと、私のおすすめはWord for the webです
同じ音源をもとに文字起こしを比較
音源は消費者庁の「消費生活相談員インタビュー動画(30秒編)」からお借りしました。
- 発言者が4人もいる
- BGMが被っている(雑音がある)
- アナウンサーではない素人の音声
という、実際のインタビューやミーティングに近いものを選定しました。
いやー、BGM被ってるとか難易度高くない? と思ったんですが、意外にも、どの文字起こしサービスも優秀!
Googleドキュメントの音声入力
無料で何度でも使える音声入力ツールです。ライターやブロガーの中には、執筆の効率化に活用している人もいるようです。
Googleドキュメントの音声入力で文字起こしをするには、すでに録音されたインタビュー音声をPCで再生しながらドキュメントの音声入力をスタートさせればOK。
残念ながらファイルの読み込みには対応していないため、長時間の文字起こしであれば休憩時間や寝る前に手動で音声入力をスタートさせるなどの工夫が必要です。
Googleドキュメントの音声入力の文字起こし結果
ほぼ問題なく文字起こしできています。
ただし、発言者の区別や改行、句読点の付与には対応していません。
インタビューの文字起こしにはやや不向きですが、自分で喋った内容を書き起こしてくれる用途であれば手軽に使えそうですね。
なんといっても無料ですし!
Amazon Transcribe
AWS(Amazon Web Services)というAmazonクラウドサービスの中の1つがAmazon Transcribeです。
利用にあたり、Amazonとは別にAWSへアカウント登録する必要があります。
Amazon Transcribeは、自動音声認識 (ASR、automatic speech recognition) と呼ばれる深層学習プロセスで、精度の高い文字起こしを可能にしています。
語彙のカスタマイズ等も可能なので、バリバリ使いこなせば良い相棒になりそうです。
料金は従量課金制で、1ヶ月単位の利用秒数に基づいてドル建てで計算されます。
2021年10月10日現在、最初の250,000分までは「約2.6円/分」です(1ドル=110円換算)
ちょっと試してみるのに最適ですね
Amazon Transcribeの文字起こし結果
発言者の区別がやや不得意なのか?という結果になりました。
また、微妙な聞き取りミスもありましたが、同音異義語の漢字変換がほぼ正しいのはすごいなと思います。
しかしながら、文字起こしに至るまでの手続きがやたらと面倒くさい!
そのうえAmazon Transcribeに遷移するとメニューが英語になっちゃうんです!(日本語の解説ページはあります)
個人的には、もっと改善されないと手を出しにくいサービスという使い心地でした
Word for the web
サブスク版Officeとも言えるMicrosoft 365を契約している場合に使える機能です。
Microsoft 365は年間契約で12,984円するので、普段仕事でOffice製品を使わない人にとっては負担が大きいかもしれません。
自分がマイクで喋った言葉をリアルタイムで文字起こしさせる場合は、PC版Wordの「ディクテーション」で対応できます。
しかし、録音ファイルを文字起こしする場合は、PCからWordを立ち上げるのではなく、Office on the webにサインインしてWeb版のWordを使う必要があります。
Web版Wordの ディクテーション>トランスクリプト から、オーディオ ファイル(.wav、.mp4、.m4a、.mp3)をアップロードすれば文字起こしが完了です。
アップロード後、文字起こしに多少の待ち時間が発生しますが、ファイルの再生時間よりもずっと短い時間で済むのも嬉しいポイントです。
Word for the webの文字起こし結果
声質が似ていたのか、発言者の区別が甘い部分がありました。
また、「しゃ・しゅ・しょ」のような語尾が消えがちな単語の判別も難しいようですね。
後で確認するときにありがたい!
インタビュー文字起こしで一番使い勝手がいいのはWord for the web
インタビュー音源の文字起こしにおいて、Google ドキュメント/Amazon Transcribe/Word for the webの中で、私が一番使いやすいのはWord for the webです。
というのも、インタビュー音源には次のような特徴があります。
- 発言者が複数
- ときどき雑音が混じる
- 取材時間が長い
この特徴を考慮すると、文字起こしに求める機能って大体決まってしまうんですよね。
発言者が複数→発言者の区別がつけられるか
発言者の自動判別と、発言ごとのタイムスタンプ機能があるのはAmazon TranscribeとWord for the webです。
Google ドキュメントはベタ打ち原稿のような仕上がりになるため、後で整理する手間が余分にかかります。
ときどき雑音が混じる→雑音無視して文字起こしできるか
これはGoogle ドキュメント/Amazon Transcribe/Word for the webの3つとも、問題なく対応できていました。
取材時間が長い→短時間で音声ファイルを処理できるか
ファイル処理自体が最も早かったのはAmazon Transcribeですが、音声ファイルのアップロード前に設定しなければならない部分が多いのと、それが全部英語だってところが「うっ面倒…」と言わざるを得ません。
Word for the webではファイル処理に若干時間がかかるものの、せいぜい取材時間の10分の1くらいです。1時間のインタビュー音声なら、コーヒーいれておやつ食べて戻って来れば仕上がっています。
Google ドキュメントは、残念ながら音声ファイルをリアルタイム再生しながらの書き起こしなので、時短にはなりません。
しかもバックグラウンド処理ができない(Google ドキュメントのウィンドウが背後に回ると文字起こしがストップする)ので、かなり使い勝手が悪いと言えるでしよう。
ただ、原稿を口述筆記したい場合には手軽に利用できて良いと思います
自動文字起こしの後処理が面倒!という人は…
AIによる自動文字起こしサービスは確かに便利ですが、やはり細かな聞き間違いや変換間違いは避けられません。
ケバ取りや専門用語の訂正が面倒!
ここから整える時間が惜しい!
そんな人は、プロの手で正確な文字起こしをしてもらうと大幅な効率化につながります。
個人スキルマーケットココナラ
自動文字起こしの後処理が面倒!という人は、プロの手で正確な文字起こしをしてもらうだけで大幅な効率化につながりますよ。
\文字起こしの料金相場を見てみよう/