これだけは気をつけろ! 「テープ起こし」虎の巻(3/4 ページ)

» 2010年05月12日 16時30分 公開
[山口真弘Business Media 誠]

「聞き取れない用語の処理」に違いあり

 3社とも音源データの素材は同じながら、納品されたテキストの内容はかなりの差が見られた。とくに傾向の違いが見られたのは、聞き取れない用語の処理と、専門用語の扱い。また、ケバをどの程度残すかについても、はっきりと違いが現れた。各社のテキストを比較しながら傾向を見ていこう。

 正しい内容を記したテキストがこれ。着色してある個所は間違えやすいところを示している。


「コエラボ」の納品データ

 着色個所はいずれも不正確だが、聞き取れた範囲で表記していたり、タイムスタンプが埋め込まれていることから、あとからの特定は比較的容易。


「東京反訳」の納品データ

 ほぼ正しい内容。用語集に含まれていなかった「eSATA」の大文字小文字も正しく表記している。確定しない個所は「〓文字列〓」となっている。


「C社」の納品データ

 聞き取れないと判断した個所をあっさりと放棄しているのが分かる。接続詞などは全体的に正確だが、このサンプル文章以外の個所ではケバが非常に多く読みづらい。



 コエラボの納品データは、後述の東京反訳に比べると細かい聞き間違いはあるものの、無理に既知の用語に当てはめようとせずに聞き取れた音をそのまま表記しているため、発注側が一読すればすぐに気づいて手直しでき、あまり大きな問題ではない。

 そもそも「素起こし」なので、この程度のもれはあって当然であり、東京反訳に比べ短納期であることも考慮すると十分に許容範囲だ。また、全く聞き取れなかった個所には「0:00:00」といったタイムスタンプが埋め込まれているため、あとから該当個所のみを聞き直しやすい点も評価できる。専門用語の再現性もそこそこ高い。

 東京反訳の納品データは、今回依頼した3社の中ではもっとも精度が高かった。素起こしでありながらほぼケバを省いた形でまとめられているため読みやすい上、聞き間違いがほとんどなく、あいまいな語句とそうでない語句もはっきりと区別されていることから、発注側としてもチェックしやすい。後工程をしっかり配慮している印象だ。また、こちらが事前に提供した用語集を参考に、関係する専門用語、例えば以下の例にある「eSATA」などを独力で探し当てた形跡があり、忠実な表記だったのには驚かされた。

記事修正 5/19 1:00 記事初出時「ほんの1カ所、100文字程度の会話がまるごと抜けていた個所があり、これが唯一のマイナス評価だ」とありましたが、実際のテープ起こしには抜けはありませんでした。作業手順のミスにより、東京反訳と読者の皆さまにはご迷惑をおかけしました。お詫びするとともに、該当個所を削除します。

 納期に遅れた右下の「C社」は、良くも悪くも「素起こし」そのもの。「ええ」「はい」といった相槌を回数まで忠実にカウントしている一方で、聞き取れないと判断した名詞はあっさり放棄して黒丸(●)で表記するといった具合に、注力する個所が他社とはややズレている印象だ。

 せめてコエラボのように聞き取れた音だけでも書き残してくれれば後工程での修正は容易になるのに、と思う。また、2人の担当者が分担して作業を行ったのか、納品データの前半と後半でケバ取りの程度が明らかに異なっていた。分業そのものは問題ないとして、ケバ取りの程度を統一しないまま納品されるのは、後工程からすると困りものだ。ここの納品物をベースにすると、けっこうな手戻りが発生しそうだ。

 以上、音源データが同じでも、専門業者によって成果物にかなりの違いがあることがお分かりいただけたのではないかと思う。最後にまとめとして、テープ起こしの際の注意点をみていこう。

「テープ起こしをアウトソースする際の注意点」はこれだ

 単純に今回の結論を述べるとすれば「クオリティ優先なら東京反訳、納期優先ならコエラボ」ということになるが、いついかなる場合においてもこの法則が正しいかと言うとノーだろう。今回の音源データの分野に担当者がたまたま強かっただけという見方もできるし、次回も同じ担当者に当たるかどうかは分からない。そもそも、今回のテストではどこまでが属人的なのか判断するのは難しいからだ。「素起こし」ではなく「ケバ取り」を指定すれば結果が変わっていた可能性もある。今回の依頼が3月の繁忙期だったことも、影響を及ぼしているかもしれない。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ