|
mots quotidiens. | |
| Daichi Mochihashi (持橋大地) daichi | by hns, version 2.10-pl1. |
|
|||||||||||||||||||||||||||||||||||||||||||||||
石垣島の石垣商工会館で行われた, 情報処理学会第204回自然言語処理研究会から,
先週の23日(祝)に帰ってきました。
NL研は毎回委員会をやると最初に聞いていた気がするのもあって参加したのですが,
実際には委員会はなかったので, 参加必須ではなかったようですが..。
その代わり, 夜に非公式な委員会?がありました。
内容はメモを取りながら聞き, 色々NLPの課題も整理できたので, 良かったような気が します。二日目夜は懇親会の後, 石垣市街のビルの6Fにあるバーで,
| 高村○ ○船越(本田) 窓| 宮尾○ ○西川(NTT) | 持橋○ ○吉川(東工大)という濃いメンバー(敬称略)で, 泡盛を飲みました。以下写真。(クリックで拡大)
![]() | ![]() | ![]() | ![]() |
| NL研最遠の地。 | 会場の石垣商工 会館。 | ホテルからの風景。 実際の海はもっと トルコブルーです。 | 西表島, 大原集落の NTT交換局。 |
さて, BUGSは多くの統計の場合と同様, {3.28, 4.07, 1.15, -5.92, ..}のような連続値のデータが, ある分布に従ってiidで一度ずつ発生している場合を対象にしているらしく, 自然言語処理で 現れるような, data[i,j] が k回, というような場合は, データを仮想的に
for (k in 1:freq[i,j])
{
data2[i,j,k] <- data[i,j];
}
などとして増やさなければいけない模様(!)。
途方に暮れたので久保さんにお聞きしてみると, BUGSには尤度を直接書ける Poisson trick と
呼ばれるものがある, とのこと。
これは, パラメータμのポアソン分布から0が出る確率は exp(-μ) であることを利用して,
data[i,j] <- 0; L[i,j] = log(何とか..); data[i,j] ~ dpois(-L[i,j]);とすると, 任意の尤度関数が書ける, というもの。 WinBUGS User manual の36ページに載っていて, 一部では有名なトリックらしい。 これを使って, dat[i,j] の頻度が freq[i,j] に書かれている時,
data {
for (i in 1:N)
{
for (j in 1:index[i])
{
pseudo[i,j] <- 0;
}
}
}
model
{
..
for (i in 1:N)
{
..
for (j in 1:index[i])
{
L[i,j] <- log (q[i] / K + (1 - q[i]) * exp (loggam(dat[i,j] + r[i]) - ..));
pseudo[i,j] ~ dpois(- L[i,j] * freq[i,j]);
}
}
}
などのようにして, 混合分布も, 頻度項も上手く吸収することができた(上の freq[i,j] の使い方を参照)。
和が1らしいです。ついにオフィスにもベイズが進出!
という冗談はともかく, 今日はISMの
統計思考院
の
設立シンポジウム
でした。
NIIの新井先生の講演「科学の言葉としての数学」が, 教養とビジョン溢れる,
非常に素晴らしいお話でした。
先日の情報・システム研究機構の若手合宿(「クロストーク」@群馬安中温泉)の
帰りのバスでは, 僕は実は新井先生のすぐ後ろの席に座っていたわけですが,
凄いなあと感動したり。
夜は統計思考院の設立記念式典と祝賀会で, 階段にまでいい匂いがしていました。
そういう意味ではごく自然な話だが, 論文にはnグラム平均確率の対数を "Information Content" とかいう謎の言い方をされていて, 意味が分かりにくくなっている。 NIPS 2006にも "Speakers optimize information density through syntactic reduction" という論文があって引用も多いらしく, 文献リストが興味深い論文でした。
日曜日に着いて, 函館港の横を散歩していると, ホタルイカ漁船(!)の横に,
函館水産製氷協同組合という印象的な建築が。(下の写真)
前面の凸凹はガラスブロックで光が入り, 同時に製氷のイメージを与えています。
調べると, どうも水揚げした魚の保存等に大量に必要な氷の製氷工場らしいですが,
漁港にありながら非常にすっきりとした建築で, 実際H11年の函館市の
都市景観賞
を
受賞しているようです。
他の方が撮った写真が
ここ
にありました。
![]() | ![]() | ![]() |
| 函館水産製氷協同組合。 | はこだて未来大学。 | 未来大の一番北の茂み にあった花。 |
僕は予習をしていたので大丈夫でしたが, かなり high-level picture で,
細かい所までは話さなかった(というか膨大に色々やっているので, 全部話すと
到底時間が足りないのだと思いますが)ため, 技術的な部分は論文を読まないと
分からないかな, という気はしました。
技術的には, NIPS08の論文を見るとわかりますが, 単語全体の ancient form を
1個ずつGibbsで復元すると全くMCMCが動かないので, anchor と呼ばれる数文字の
部分文字列(例えば "wha")の変化前の形("fa"など)を, 根まで一気にproposalを
作って一度に動かすということをしていて, その際のproposalの作り方として
MCMCの reversibility を満たすように, 「anchorに直接至るancestry」ではなく,
「その文字列の補集合の ancestry の補集合」を proposal とすると正しいMCMCに
なる, という方法を提案しているようです。
InDel(insert/delete)がある場合の原文字列の復元問題であるこの問題は,
歴史言語学以外にも色々な応用があるように思います。
始まる前に Bouchard 氏と1時間くらい話ができて, 非常に有意義でした。
頑張って宣伝したにも関わらず若干人が少なかったですが, やはり講演者を2人
くらいにした方が(遠いので)人が来やすいのかも知れません。
国内でこういう話はほとんど誰もやっていないと思いますので,
ご興味のある方はぜひお越しください。
7/26(火) 15:00〜17:00, 統数研セミナー室5 (統数研第4回統計的機械学習セミナー)
の予定です。
Title: Probabilistic Models of Language Change Abstract: I will talk about probabilistic models of language change, and how we used these models to reconstruct proto-languages and to understand the statistical regularities of the language change process itself. I will illustrate the potential of our methods with our results on the so called functional load hypothesis. This conjecture has eluded classical models for decades, but here I will show how we obtained compelling evidence for it by using our probabilistic models. If time permits, I will also talk about new Sequential Monte Carlo algorithms for the related problems of phylogenetic tree and cognate inference. The technique we used to construct these algorithms also has applications in other NLP inference tasks over combinatorial spaces, for example alignment and parsing.
講演者は統数研に滞在中の Arnaud Doucet 氏と, 東大の牧野君です。
牧野君はまだ国際会議に発表していない最近の話を2つ合わせて話してくれる
ようです。
ところで, 外にアナウンスされていませんが, 統数研壁紙なるものを
内部で作ったそうで, 外部からもアクセスできるそうです。
http://jasp.ism.ac.jp/~ebina/wallpaper/index.html
個人的には, ロゴが小さいバージョンが良いような気がします。
| タイトル一覧 | |