CNN for Sentence Classification 読んでみた
はおー
ちゃっす、てつです!!!最近はV tuberをみています。 ヒメヒナガチ推しでございます。毎日ヒメヒナの動画を見ながら寝ています。
今回も、先輩からお勧めいただいた論文を読んだので、それについて書いていこうと思います。
読んだ論文
CNN for Sentence Classification
https://www.aclweb.org/anthology/D14-1181
例の落合フォーマットでまとめてみた
はい、いつも通りの例のやつです。
1.どんなもの?
CNNと事前学習を用いたベクトル表現で文のクラス分類をしてみようって話
2.先行研究と比べてどこがすごい?
シンプルなモデルに少しのハイパーパラメータ調整で他の洗礼されたモデルとおんなじくらいの結果を出せた
3.技術、手法のキモはどこ?
google News をデータに事前学習したword2vecのパラメータを動かさないベクトル表現(static)とパラメータを動かす(non-static)を使う
アーキテクチャ
conv -> max-over-pooling -> fully conect -> softmax のシンプルなネットワーク
過学習抑制
- dropout
- two channel staticとnon-staticを両方使う。実際変わらんかった
4.どうやって有効だと検証した?
初期値ランダム、static、non-static、two channelの四つのモデルでおんなじデータセットを回した。 → ランダムが一番低いから他のは良いモデル!!! 他のモデルと大差のない結果を出せた。
5.議論はある?
word2vecにない単語の初期値をランダムにしているが、その範囲を事前学習の分散できめることで精度を上げることができる。 google newsからwikipediaにかえるとよくなったけど、これは正しいかは分らん
6.次に読むべき論文は?
他のCNNを使ったNLPの論文をよみたいなあ
まとめ
今回の論文はページ数も少なく、アーキテクチャも簡単なのでわかりやすいものでした!!! 次はRNNかなああ
実装した記事も書きました、よければ見てね