Next:
15.2.1 Vector similarity
Up:
Topics in Information Retrival
Previous:
15.1.3 The probability ranking
15.2 The Vector Space Model
ad-hoc retrieval system で非常によく用いられる手法
document, query を多次元 vector で表現
document と query のなす角度(cosine)で類似度を計算 (Figure 15.3)
term
word も phrases も term という単位で扱う
奈良
京都
大阪
神戸
東京
福岡
Doc 1
1
1
Doc 2
1
3
1
Doc 3
2
1
Doc 4
1
2
1
Doc 5
2
1
1
Doc N
1
3
1
検索要求ベクトル
= {(1
奈良), (2
京都), (1
神戸)}
SIM(q,Doc 1)
=
1
0 + 2
1 + 1
1
=
3
SIM(q,Doc 2)
=
1
0 + 2
0 + 1
0
=
0
SIM(q,Doc 3)
=
1
0 + 2
2 + 1
0
=
4
SIM(q,Doc 4)
=
1
1 + 2
0 + 1
2
=
3
SIM(q,Doc 5)
=
1
2 + 2
0 + 1
1
=
3
SIM(q,Doc N)
=
1
0 + 2
1 + 1
3
=
5
15.2.1 Vector similarity
15.2.2 Term weighting
Next:
15.2.1 Vector similarity
Up:
Topics in Information Retrival
Previous:
15.1.3 The probability ranking
1999-08-03