自然言語処理における評価尺度
アドベントカレンダー12日目です。
今回はメモ的な意味も含めて、自然言語処理における評価尺度を書いていこうと思います。
adventar.org
WER
WERは(Word Error Rate)の略で、機械翻訳や音声認識などで使われており、エラー率なので低いほうがいい評価になります。
計算式は以下のとおり。
は置換の数、
は削除数、
は挿入数、
は正しい単語の数、
はの単語の数
とのことだがこれだけ聞いてもよくわかりません。
音声認識の場合では、人間の発言した単語のうちいくつ聞き取ることができなかったかの割合になるとのこと。
詳しくは以下を参照。
Word Error Rate Calculation · Martin Thoma
Hunt's WER
Hunt's WERはWERを改良したもので、weighted measureを採用している。
BLEU
BLEUは(BiLingual Evaluation Understudy)の略です。
翻訳でよく見かける評価で、日本ではよく使われていると思います。
生成した翻訳と、元の翻訳文を比較したときに、単語の重複している数を計算し、中でも連続している単語には高いスコアを与えます。
計算式は、以下のとおりです。
日本語のわかりやすい解説は以下から。
http://www2.nict.go.jp/astrec-att/member/mutiyama/corpmt/4.pdf
BLEU
GLEU
GLEUは(Google-BLEU)の略。
Generalized BLEU
BLEUよりも人間の判断に近いらしい?
ROUGE
ROUGEは(Recall-Oriented Understudy for Gisiting Evaluation)の略。
要約に使われているイメージ。
METEOR
METEORは(Metric for Evaluation of Translation with Explicit ORdering)の略。名前の通り、翻訳や要約に使われている。
TER
TER(Translation Edit Rate)の略。
おそらく翻訳の評価に用いられる?
CIDEr
CIDEr(Consensus-based Image Description Evaluation)の略。
イメージキャプションの評価に用いられる。
まとめ
書きかけですが、かなり長くなりそうなので途中で公開します・・。
いつか追記します。
参考
Word error rate - Wikipedia
Googleの音声認識、ワードエラー率が1年経たずに「8.5%」から「4.9%」まで改善! もはや人間レベル? | ロボスタ
BLEU
http://www2.nict.go.jp/astrec-att/member/mutiyama/corpmt/4.pdf
[1411.5726] CIDEr: Consensus-based Image Description Evaluation
GitHub - gcunhase/NLPMetrics: Python code for various NLP metrics
NLPMetrics/NLP_performance_metrics-April6th2018.pdf at master · gcunhase/NLPMetrics · GitHub