 
 
 
 
 
   
 Next: 7.4 Obtaining Lexical Probabilities
 Up: Chapter7Ambiguity Resoltion: Statistical Methods
 Previous: ○ Viterbi algorithm
- n-gram 統計をとる場合, いったいどれくらいの規模の corpus があれば
       いいのか? (categry 数 40)
 
- unigram 
 401 = 40 401 = 40
- biigram 
 402 = 1600 402 = 1600
- trigram 
 403 = 64,000 403 = 64,000
- four-gram 
 404 = 2,560,000 404 = 2,560,000
 100万単語の courps があったとしても four-gram はそのほとんどが empty
 trigram の場合はきれいに分布している category は 15% ほど
 
- smoothing 
 data sparseness の対処法
 n-gram 統計を n-gram だけを用いるのではなく, unigram, bigram
       trigram.. の組み合わせで表現する
 
 もし, trigram が data sparseness のために観察できなかった場合, bigram,
unigram で確率値が補完される,
 best performance を得るために, の値を残りの2つより大きくする
(trigram の確率値を残りの2つより優先) の値を残りの2つより大きくする
(trigram の確率値を残りの2つより優先)
1999-08-03