mots quotidiens.
Daichi Mochihashi (持橋大地) daichi by hns, version 2.10-pl1.

先月 2012年02月 来月
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29

2011年11月30日(水) [n年日記]

#1 NL204@石垣島

石垣島の石垣商工会館で行われた, 情報処理学会第204回自然言語処理研究会から, 先週の23日(祝)に帰ってきました。
NL研は毎回委員会をやると最初に聞いていた気がするのもあって参加したのですが, 実際には委員会はなかったので, 参加必須ではなかったようですが..。 その代わり, 夜に非公式な委員会?がありました。

内容はメモを取りながら聞き, 色々NLPの課題も整理できたので, 良かったような気が します。二日目夜は懇親会の後, 石垣市街のビルの6Fにあるバーで,

 | 高村○ ○船越(本田)
窓| 宮尾○ ○西川(NTT)
 | 持橋○ ○吉川(東工大)
という濃いメンバー(敬称略)で, 泡盛を飲みました。以下写真。(クリックで拡大)

NL研最遠の地。会場の石垣商工
会館。
ホテルからの風景。
実際の海はもっと
トルコブルーです。
西表島, 大原集落の
NTT交換局。

#2 JAGS+Poisson Trick

先日, 内部で話していてふと思いついた話を実装しようと思い, 式を書いて微分して Newton法を導いてプログラムを書き, 動かしてみたところで, 目的関数が全然凸でない ため初期値依存で全く動かないことが判明。;
MCMCにするしか..と考えたところで, BUGSで計算すればいいのでは, ということに気付き, 久保さん にお聞きして, ついに僕もRと JAGS を使ってみることに。BUGSはWindowsやLinuxでしか動かないので, OSXやSunOS(w で 動かすには, オープンな実装のJAGS等が必要です。

さて, BUGSは多くの統計の場合と同様, {3.28, 4.07, 1.15, -5.92, ..}のような連続値のデータが, ある分布に従ってiidで一度ずつ発生している場合を対象にしているらしく, 自然言語処理で 現れるような, data[i,j] が k回, というような場合は, データを仮想的に

for (k in 1:freq[i,j])
{
    data2[i,j,k] <- data[i,j];
}
などとして増やさなければいけない模様(!)。
このままでは, 頻度が2000のアイテムは計算もメモリも2000回に増えてしまう。 また, BUGSでは一般的な混合モデルが上手く扱えないらしく, 同じ分布の混合分布はそのまま 書けたり, GMMの場合にはパッケージもあるものの, 例えば Gaussian と外れ値 分布としての Cauchy, のような混合分布を扱う方法がない。 *1

途方に暮れたので久保さんにお聞きしてみると, BUGSには尤度を直接書ける Poisson trick と 呼ばれるものがある, とのこと。
これは, パラメータμのポアソン分布から0が出る確率は exp(-μ) であることを利用して,

data[i,j] <- 0; L[i,j] = log(何とか..);
data[i,j] ~ dpois(-L[i,j]);
とすると, 任意の尤度関数が書ける, というもの。 WinBUGS User manual の36ページに載っていて, 一部では有名なトリックらしい。 これを使って, dat[i,j] の頻度が freq[i,j] に書かれている時,
data {
    for (i in 1:N)
    {
        for (j in 1:index[i])
        {
            pseudo[i,j] <- 0;
        }
    }
}
model
{
    ..
    for (i in 1:N)
    {
        ..
        for (j in 1:index[i])
        {
                L[i,j] <- log (q[i] / K + (1 - q[i]) * exp (loggam(dat[i,j] + r[i]) - ..));
                pseudo[i,j] ~ dpois(- L[i,j] * freq[i,j]);
        }
    }
}
などのようにして, 混合分布も, 頻度項も上手く吸収することができた(上の freq[i,j] の使い方を参照)。
NLPでJAGS/BUGSを使う人がもしいれば, 同じ問題に遭遇すると思いますし, 久保さんを少しdisturbしてしまったので, 感謝をこめてここに書いておきます。
*1: 久保さんに教えていただいた所によると, 例えば Gaussian と Cauchy の混合分布の場合, Gaussianの中心と分散を確率変数にして, 「普通のGaussian」か, 「Cauchyからランダムに取った点を中心とした, ほとんどδ関数な Gaussian」のどちらかから出たことにする, という方法があるそうです。なるほどすぎる。

2011年11月02日(水) [n年日記]

#1 統計思考院設立シンポ

和が1らしいです。ついにオフィスにもベイズが進出!

という冗談はともかく, 今日はISMの 統計思考院設立シンポジウム でした。 NIIの新井先生の講演「科学の言葉としての数学」が, 教養とビジョン溢れる, 非常に素晴らしいお話でした。
先日の情報・システム研究機構の若手合宿(「クロストーク」@群馬安中温泉)の 帰りのバスでは, 僕は実は新井先生のすぐ後ろの席に座っていたわけですが, 凄いなあと感動したり。
夜は統計思考院の設立記念式典と祝賀会で, 階段にまでいい匂いがしていました。


2011年10月19日(水) [n年日記]

#1 PNAS

Twitterで前に誰かが紹介していたPNASの2010年の論文, "Word lengths are optimized for efficient communication" を読んだ。
紹介されていた時は, 「頻度の高い単語ほど短くなる」というZipf則(の変形)よりも良い指標 がある, というような話だったような気がしましたが(多分), 読んでみると実は, 単語の長さと相関が高いのは単語の頻度=1グラム確率のLogより, その単語のnグラム確率のLogの平均だ, という話だった。実際には, 上の確率のLogと, 文字で表した単語の長さとのスピアマンの相関係数を取って比較している。

そういう意味ではごく自然な話だが, 論文にはnグラム平均確率の対数を "Information Content" とかいう謎の言い方をされていて, 意味が分かりにくくなっている。 NIPS 2006にも "Speakers optimize information density through syntactic reduction" という論文があって引用も多いらしく, 文献リストが興味深い論文でした。

・ -

個人的には, ここの所PFIやIBM東京基礎研究所でトークしたり, 最近まで東大の言語学科の 教授でいらっしゃった角田先生とサシに近い形でお話しできたりと東京に来て色々あったわけ ですが, とりあえず割愛。。


2011年09月07日(水) [n年日記]

#1 IBISML@函館

函館のはこだて未来大学で行われた, IBISMLの 第6回研究会 に参加してきました。 *1 この回の担当幹事ではないので絶対必須ではなかったらしいですが, 幹事補佐なので是非行くべきだと思って参加。
内容は相変わらず, 研究会なのにレベルが高く, また函館の地に参加者も凄い方が 沢山集まっていました。 個人的には, NECの石井さんによる 「一般損失最小化に基づくカーネル識別器の学習」 と, 東工大杉山研の Ning Xie さんによる 「Artist Agent A^2: Painterly Rendering Based on Reinforcement Learning」 が特に面白い, 印象に残る発表でした。
前者は, 一般化損失関数を考えることで, SVMより圧倒的に少ないサポートベクターで, 同等以上の性能を達成し, クラスの事前確率やマルチクラスも自然に扱えるという, 淡々と発表されているのにまるで嘘のような凄い話。 後者は水墨画のようなストロークの軌跡を, 描画結果が与えられた領域をカバー する条件の下で, 軌跡をスムーズにするように強化学習として捉えて学習する, という 話。最後の金魚の水墨画の学習が印象的だったので, もっと前面に出してもいいのでは ないかと思いました。こういう場所に強化学習が使えるとは全く思っていなかった ので, 非常に新鮮でした。

日曜日に着いて, 函館港の横を散歩していると, ホタルイカ漁船(!)の横に, 函館水産製氷協同組合という印象的な建築が。(下の写真)
前面の凸凹はガラスブロックで光が入り, 同時に製氷のイメージを与えています。 調べると, どうも水揚げした魚の保存等に大量に必要な氷の製氷工場らしいですが, 漁港にありながら非常にすっきりとした建築で, 実際H11年の函館市の 都市景観賞受賞しているようです。 他の方が撮った写真が ここ にありました。

函館水産製氷協同組合。はこだて未来大学。未来大の一番北の茂み
にあった花。


*1: 最近自分の研究では勉強のしまくりなので, 自分の研究ネタでなくてすみません。

2011年07月27日(水) [n年日記]

#1 -

下のTalkは無事終了しました。
内容的には前半がNAACL2009の話, 後半がまだ論文になっていない Poisson indel process の話でした。
言語の系統樹と最終的な単語の形がわかっている時, 単語の未知の ancient form を推定するという, 一種の教師なし学習で, 内部では Loglinear モデルを 使って, MCMC-EM で学習をしています(前半の場合)。
後半の話は, 系統樹がわからない場合でも, 分岐がポアソン過程に従って起きた と仮定することで, 系統樹との同時学習を可能にするという話だったと思います。

僕は予習をしていたので大丈夫でしたが, かなり high-level picture で, 細かい所までは話さなかった(というか膨大に色々やっているので, 全部話すと 到底時間が足りないのだと思いますが)ため, 技術的な部分は論文を読まないと 分からないかな, という気はしました。
技術的には, NIPS08の論文を見るとわかりますが, 単語全体の ancient form を 1個ずつGibbsで復元すると全くMCMCが動かないので, anchor と呼ばれる数文字の 部分文字列(例えば "wha")の変化前の形("fa"など)を, 根まで一気にproposalを 作って一度に動かすということをしていて, その際のproposalの作り方として MCMCの reversibility を満たすように, 「anchorに直接至るancestry」ではなく, 「その文字列の補集合の ancestry の補集合」を proposal とすると正しいMCMCに なる, という方法を提案しているようです。
InDel(insert/delete)がある場合の原文字列の復元問題であるこの問題は, 歴史言語学以外にも色々な応用があるように思います。
始まる前に Bouchard 氏と1時間くらい話ができて, 非常に有意義でした。
頑張って宣伝したにも関わらず若干人が少なかったですが, やはり講演者を2人 くらいにした方が(遠いので)人が来やすいのかも知れません。


2011年07月20日(水) [n年日記]

#1 Bouchard Talk

明日ibisml等でアナウンスする予定ですが, Randomized Pruning, Phylogenic inference, Painless unsupervised learning, ...等で有名で, Dan KleinとMichael Jordanの学生 だった Alexandre Bouchard-Cote 氏が来週26日(火)に, 以下の内容で統数研でTalkしてくれることになりました。
自然言語データの変化の系統樹を復元する話です。 (多分, NIPS'08の これ 。)

国内でこういう話はほとんど誰もやっていないと思いますので, ご興味のある方はぜひお越しください。
7/26(火) 15:00〜17:00, 統数研セミナー室5 (統数研第4回統計的機械学習セミナー)
の予定です。

Title: Probabilistic Models of Language Change

Abstract:

I will talk about probabilistic models of language change, and how we
used these models to reconstruct proto-languages and to understand the
statistical regularities of the language change process itself.  I
will illustrate the potential of our methods with our results on the
so called functional load hypothesis.  This conjecture has eluded
classical models for decades, but here I will show how we obtained
compelling evidence for it by using our probabilistic models.

If time permits, I will also talk about new Sequential Monte Carlo
algorithms for the related problems of phylogenetic tree and cognate
inference.  The technique we used to construct these algorithms also
has applications in other NLP inference tasks over combinatorial
spaces, for example alignment and parsing.

2011年06月16日(木) [n年日記]

#1 ISM 統計的機械学習NOE第3回セミナー

明日17日(金)15:00-17:30は, 各所でアナウンスされている通り, 統数研の 統計的機械学習NOE の第3回のセミナーです。 皆様ぜひお越し下さい。
http://www.ism.ac.jp/events/2011/meeting0617.html

講演者は統数研に滞在中の Arnaud Doucet 氏と, 東大の牧野君です。
牧野君はまだ国際会議に発表していない最近の話を2つ合わせて話してくれる ようです。

ところで, 外にアナウンスされていませんが, 統数研壁紙なるものを 内部で作ったそうで, 外部からもアクセスできるそうです。
http://jasp.ism.ac.jp/~ebina/wallpaper/index.html
個人的には, ロゴが小さいバージョンが良いような気がします。


7 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project