自然言語処理における評価尺度

アドベントカレンダー12日目です。
今回はメモ的な意味も含めて、自然言語処理における評価尺度を書いていこうと思います。
adventar.org

WERは(Word Error Rate)の略で、機械翻訳や音声認識などで使われており、エラー率なので低いほうがいい評価になります。
計算式は以下のとおり。

$WER = \frac{S+D+I}{N} = \frac{S+D+I}{S+D+C}$

$S$ は置換の数、
$D$ は削除数、
$I$ は挿入数、
$C$ は正しい単語の数、
$N$ は $(S+D+C)$ の単語の数
とのことだがこれだけ聞いてもよくわかりません。

音声認識の場合では、人間の発言した単語のうちいくつ聞き取ることができなかったかの割合になるとのこと。
詳しくは以下を参照。
Word Error Rate Calculation · Martin Thoma

Hunt's WERはWERを改良したもので、weighted measureを採用している。

$\displaystyle \frac{(S+0.5D+0.5I)}{N}$

BLEUは(BiLingual Evaluation Understudy)の略です。
翻訳でよく見かける評価で、日本ではよく使われていると思います。

生成した翻訳と、元の翻訳文を比較したときに、単語の重複している数を計算し、中でも連続している単語には高いスコアを与えます。

計算式は、以下のとおりです。

$\displaystyle BLEU = BP_{BLEU} * exp(\frac{1}{N}\sum_{n=1}^{N}{logP_{n}})$

GLEUは(Google-BLEU)の略。

BLEUよりも人間の判断に近いらしい？

ROUGEは(Recall-Oriented Understudy for Gisiting Evaluation)の略。
要約に使われているイメージ。

METEORは(Metric for Evaluation of Translation with Explicit ORdering)の略。名前の通り、翻訳や要約に使われている。

TER(Translation Edit Rate)の略。
おそらく翻訳の評価に用いられる？

CIDEr(Consensus-based Image Description Evaluation)の略。
イメージキャプションの評価に用いられる。

書きかけですが、かなり長くなりそうなので途中で公開します・・。
いつか追記します。

深層学習とその他