 
 
 
 
 
   
 Next: 15.1.2 Evaluation measuers
 Up: 15.1 Some Background on
 Previous: 15.1 Some Background on
- invsersed index
 転地 index, 本の索引
- position information
 洗練された inverted index は単語の有無の他に
       位置情報も保持する phrases 検索が可能 phrases 検索が可能
- ``car insurance'' という query に対して, 語がこの
       順で並んで出現する document ほうが,より relevant
- 単なる位置だけだと ``car insurance rates'' と ``rates for car insurance'' を
       同一のものと扱えない 
 NLP reserch の分野 NLP reserch の分野
- 現在の IR system の多くは phrases を pharses として
	      扱うのではなく, word 単位で扱う(n-gram 等)
	      
 それなりの performance それなりの performance
- collocations の問題
       
 
- stop list
       
- from や could などの function words(機能語)は, 
	      word-by-word な検索には不要. 
 stop list として保持しておき,
	      inveted index に登録しない. (Table 15.1 に stop list の例)
- inverted index の sizeを大幅に減らすことができる (Zipf の法則..)
- phrases 検索には function words は必要 
 多くの検索 engines はstop list を使わない 多くの検索 engines はstop list を使わない
 
- stemming
       
- laughing,laugh,laughs,laughed を同一視したい
- suffix の変化を吸収する
- Lovins and Porter stemmers が一般的
- これらの stemmer は 語の表層しか見ないので意味的な区別を
	      行うことができない
 (gallery と gall は おなじ gall- に stemming される)
 
1999-08-03