深層学習とその他

機械学習したいマン

自然言語処理における評価尺度

アドベントカレンダー12日目です。
今回はメモ的な意味も含めて、自然言語処理における評価尺度を書いていこうと思います。
adventar.org

WER

WERは(Word Error Rate)の略で、機械翻訳音声認識などで使われており、エラー率なので低いほうがいい評価になります。
計算式は以下のとおり。



WER = \frac{S+D+I}{N} = \frac{S+D+I}{S+D+C}

Sは置換の数、
Dは削除数、
Iは挿入数、
Cは正しい単語の数、
N(S+D+C)の単語の数
とのことだがこれだけ聞いてもよくわかりません。

音声認識の場合では、人間の発言した単語のうちいくつ聞き取ることができなかったかの割合になるとのこと。
詳しくは以下を参照。
Word Error Rate Calculation · Martin Thoma

Hunt's WER

Hunt's WERはWERを改良したもので、weighted measureを採用している。



\displaystyle
 \frac{(S+0.5D+0.5I)}{N}

BLEU

BLEUは(BiLingual Evaluation Understudy)の略です。
翻訳でよく見かける評価で、日本ではよく使われていると思います。

生成した翻訳と、元の翻訳文を比較したときに、単語の重複している数を計算し、中でも連続している単語には高いスコアを与えます。

計算式は、以下のとおりです。


 \displaystyle 
BLEU = BP_{BLEU} * exp(\frac{1}{N}\sum_{n=1}^{N}{logP_{n}})

日本語のわかりやすい解説は以下から。
http://www2.nict.go.jp/astrec-att/member/mutiyama/corpmt/4.pdf
BLEU

GLEU

GLEUは(Google-BLEU)の略。

Generalized BLEU

BLEUよりも人間の判断に近いらしい?

ROUGE

ROUGEは(Recall-Oriented Understudy for Gisiting Evaluation)の略。
要約に使われているイメージ。

METEOR

METEORは(Metric for Evaluation of Translation with Explicit ORdering)の略。名前の通り、翻訳や要約に使われている。

TER

TER(Translation Edit Rate)の略。
おそらく翻訳の評価に用いられる?

CIDEr

CIDEr(Consensus-based Image Description Evaluation)の略。
イメージキャプションの評価に用いられる。

まとめ

書きかけですが、かなり長くなりそうなので途中で公開します・・。
いつか追記します。