 
 
 
 
 
   
 Next: 15.3.2 The two-Poisson model
 Up: 15.3 Term Distribution Model
 Previous: 15.3 Term Distribution Model
- 十分に長い時間内(=連続した時間内)にある事象がk回発生する確率分布
 (欠陥が発生する, 微生物が発生する.. etc)
 
  は 単位時間あたりの発生回数
       possion distribution の分布例 は 単位時間あたりの発生回数
       possion distribution の分布例 Figure 15.4 Figure 15.4
 
 3つの前提
- ある細分された時間内に事象がおきる確率は時間の長さに比例
- 時間を非常に細かく細分すれば、細分された時間内にその事象
	      が2回以上起きる確率は無視できる
- 個々の細分された時間内に起きる事象は、他の時間に起きる事象
	      と独立
       
 
- binomial distribution 
 poisson distribution poisson distribution
 
 (証明)
 
  の時 の時
 
 よって
 
 
- 期待値,分散  
  
- Term distribution model へ適用
       
 
  は term wi の1 document あたりの平均出現回数, ( は term wi の1 document あたりの平均出現回数, ( ) )
- Term distribution model における possion 分布の前提条件の解釈
       
- 1.
- text をある一定量で細分した各部分で,ある単語が出現する確率は
その細分された text 長に比例する
        
- 2.
- text 中の非常に局所的な個所では,ある単語が 2回以上出現
	      する確率は無視してよい
	
- 3.
- text をある一定量で細分した個々の部分で, ある単語
	      が出現するかしないかは他の細分された部分とは独立である
       
 
- 前提をもとに証明
       
- 1.
- ある単語 wi が, 1 text (document) に出現する平均回数は
 回 回
- 2.
- この text を n 等分する,
	
- 3.
- n等分された 1つのグループに wi が1回出現する確率は
	      
 (前提1,前提2) (前提1,前提2)
- 4.
- この text(document) に wi が k 回出現する確率は,
	      binominal distribution (前提3)
	      
 
 
- 5.
- 
 の極限をとると poisson distribution の極限をとると poisson distribution
 
 
 
- 例
       
- Table 15.6, 6つの単語を possion distribution で推定
- 
 は dfi の推定量 は dfi の推定量
- follows, transformed 等の no-content word(非内容語,非重要語,keyword
	      になりにくい語)  は, ほぼ推定どうり
- soviet, students 等の content word (内容語,重要語,keyword になりやすい語)は
	      推定値と開きがある
- 人名は新聞で最初に1回だけ使われやすい 
 james james
- freshly は no-content word にも関わらず, ある特定の
	      document に出現
- possion distribution はすべての単語を平等に扱ってしまうの
	      が問題, content-word は poisson distribution に従いにくい
- 重要語は, ある特定の document に集中しやすい
	      
 burstiness , term clustering burstiness , term clustering
- Document size は一定量ではないことが問題
       
 
1999-08-03