tetsuのlog

テツがひとりでに読んだ論文とか行き詰まったところをshareする場

YANS2019参加ログ

はおー(覇王)、テツです! 8月26 ~ 28日で行われたNLP若手の会(YANS)第14回シンポジウム先輩と研究室の留学生と参加してきました。楽しいことや学ぶことがたくさんあったので振り返りブログを書こうと思います。

ポスター発表

今年の2月くらいから取り組んでいた研究について発表いたしました。

日本語における文字体系を考慮した文書分類の提案

長澤駿太, 北田俊輔, 彌冨仁(法政大)

[スライド], [ポスター]

先行研究*1では以下の画像のように日本語の漢字の表意性に着目し、文字画像からCNNを用いて形状を捉えた文字表現を学習するcharacter encoder (CE) というものが提案されています。

f:id:tetsu316:20190908115632p:plain
文書分類モデルの概要

CEの問題点として同じ形状で意味の違う漢字(たとえば 大, 太, 犬)や 平仮名・片仮名などの表意性を持たないような文字に対して適切な表現が得られないというものがあります。この問題に対して既存の文字表現手法(lookup table)と組み合わせることで各文字に対し適切な表現を得ようとするのが今回の研究発表の内容になっています。

YANSの2週間前ほどに実装ミスが発覚し、本当にギリギリでしたが発表できてよかったです。

自分のところに人が来てもらえるか心配でしたが、多くの人に来ていただきディスカッションを行うことができました。中には自分と似たような問題設定で別の手法を提案している方も来てくださり、より深いディスカッションができたと思います。

f:id:tetsu316:20190909160132j:plain:w300
ポスターとオタク

Kaggle ハッカソン

YANSにて行われたKaggleハッカソンにも参加しました。先輩と初の直接対決となるため気合MAXです。1チーム、3 ~ 4人の構成で自分のチームは社会人の方2名、学生2名というバランスの取れたチームでした。データセットは2年前に行われたkaggleコンペのQuora Question Pairsデータを使用しました。学習用、開発用が渡され、最後にテストが渡される感じでした。

二年前のコンペというものもあり、このデータセットに対してBERTやXLNetなどの最新の手法は試されていなかったので、最新手法の適応を見る感じだったのかな?と勝手に思っています。その中で一人でコツコツ特徴量作ってLIghtGBMで遊んでいました。癖のあるデータセットだったのでこれ使えそう!みたいなのを探すのが楽しかったです。 時間も少ない中、僕らのチームではXGBoostを使ったモデルや、最新手法であるRoBERTa*2を使ったモデルが生成されていきました。RoBERTaが開発用データで圧倒的な精度を出し、僕らの最後の提出はRoBERTaのみ結果を使用しました(つまり僕は weight 0)。

結果は優勝でした!

f:id:tetsu316:20190908115527j:plain
best-team

一人は飛行機の都合で早期帰宅してしまいました、残念。 嬉しいけど切ないようなこの感じ、何なんだろう...RoBERTa...

ハッカソンのsolutionのスライドは近日公開予定とのことなので後日はらせていただきます。

kaggleハッカソンを通しても社会人の方とも交流できて楽しかったです!ぜひまたやりたい!

YANS夜の部(ボードゲーム)

初日の夜、僕はkaggleハッカソンの作業をサボり、ボードゲームに参加していました。最初の方はハッカソンのデータとにらめっこしていたのですが気づくとボードゲーム卓に..

お酒を飲みながらめちゃくちゃ盛り上がりました。僕が独創的な人間過ぎて周りにイッヌという謎のあだ名もつけられたりもしました。ボードゲームやってた方にはイッヌって名前のほうが認知されてるかも..

こちらも社会人、学生の枠を超えて楽しめました!

まとめ

初の学会ということもあり、緊張とドキドキがたくさんありました。 研究の面では普段の研究室内では出ないような意見をもらうことができました。今後の研究の参考にさせていただきます。また、他の方々の研究も興味深い物が多くモチベーションも上がり、良い刺激になりました。 交流の面ではYANSを通して交流の場もたくさんあったので、いろいろな方と話すことができました。今度は言語処理学会を目指して頑張っていこうと思います。

皆さん、言語処理学会で会いましょう! では、せーのっ、北海道はでっかいどう!!!!!!!

f:id:tetsu316:20190908114911j:plain
北海道のオタク

付録 北海道の飯

北海道はでっかいどうLTを作成したので、もし北海道行くよ!みたいな人がいればぜひ見てください。おすすめの飯を乗っけてあります。

*1:[1810.03595] End-to-End Text Classification via Image-based Embedding using Character-level Networks https://arxiv.org/abs/1810.03595

*2:[1907.11692] RoBERTa: A Robustly Optimized BERT Pretraining Approach https://arxiv.org/abs/1907.11692