Scala日記

Scalaの備忘録。ときどき研究の話。

UTF-8のはずのテキストの処理中に MalformedInputException で落ちる場合の対処

Webなどから取ってきた巨大な文書ファイルを処理するとき、UTF-8エンコーディングで処理したはずだったのに、中間処理に使った言語の仕様なのか処理ミスなのか、とにかく何らかの理由があって、Scalaで読み込む際に MalformedInputException が発生してしまうことがある。文字コード周りに問題があるらしいが、みんなが使っているファイルだし、1ファイルあたり圧縮済みで数十GBだし、作り直したくないな、という込み入った状況のときには以下のようにコーデックの設定でなんとかできる。

gist.github.com