論文執筆の裏話
当時何を思っていたのか思い出す
学位取得後,統数研に移って最初に執筆した論文.自己最多リジェクト記録を大幅に更新した一本.
時をさかのぼること2018年(くらい),学生時代はグラフ埋め込みをテーマに研究しており,グラフ埋め込みって要するにノードのペアからリンクを予測する問題にほからないので,
ただの回帰ですよねという論文 (Okuno and Shimodaira, 2020, Neural Networks) のプロトタイプを統計の連合大会で話した.
大会で遭遇した当時東大の矢野さんと雑談していたら,
当時あたりまえだと思っていたグラフ状の回帰での漸近挙動は(ノンパラの伝統的な世界観では)そこそこ非自明という話になった.
特に共変量が固定デザイン(固定グリッド上の離散点みたいなもの)なのかランダムデザイン(乱数みたいなもの)とするかで通常の回帰(共変量がx一つだけ)の漸近的な振る舞いはほぼ同じだと知られているらしかったのだが,
グラフを対象にする場合,共変量が2つ(x,x'のペア)になるので変な振る舞いをする.U統計量でカーネルが縮退するだのしないだのという定番の話があるが,あれと似ていて,
U統計量型の損失を最小化するMm推定量というM推定の一般化があり,唯一そのあたりを掘っている本に
ランダムデザインでの不思議な定理が書いてある.
要するにデザインを変えると漸近的な振る舞いが変わるので,理論的な仮定(共変量デザイン)をどう置くかだけで検定とかの結果が変わってしまうわけである.
そしてそのデザインは現実のデータから識別できないし,仮定するしかない.統計理論でこういう分野はそこそこよくあるが,必定,何のために理論を作るのか?という疑念がわく.以降この手の研究にあまり意味を見いだせないのだが,
東大の大田さんと最近雑談したときに似たようなことを言っていて,
どうにかこうにかしたい趣旨の発言をしていて大変よかった.
というわけで変な定理が誕生したので,IBIS2019で発表したら大変マニアックな人々が集まってきて賞をくれた.
そのあとバタバタしていてpendingし,私の学位取得後に統数研で同僚となった矢野さんと議論して論文を書ききった.
U統計量型+共変量ランダムデザインなので,高次の相関項がたくさん出てきて計算は大変だった.当時は訳の分からない現象だからいいところに載るだろう,と盛り上がっていたが,
理論系雑誌の知識人からはそんなことが起こるわけないだろという趣旨のコメントでrejectされ,応用系の雑誌からは自明だという趣旨のコメントでrejectされ,
自己最多リジェクト記録を大幅に更新した.
どっちやねんという気持ちで悲しくなったが,最終的にSPLの査読者がとても真摯に対応してくださり通してくれた.とても良い雑誌だと思った.
なお,Dyadic regressionという似た内容の研究がほぼ同時期にUC Berkeleyから出たが,
ランダムデザインでカーネル回帰の分母が0になる場合の処理が胡麻化されている.
最後にもう一つだけマニアックなことを書くと,最適なバンド幅では主要項が変わり上述の現象は起こらない.定数バンド幅では発生する.
ならばやる意味あるのか?という話が何度もポップしたのだが,実際の推定でバンド幅が最適値だとみなすのか,定数だと思うのかさえも我々の気持ち次第なので,霞を食うような研究にもつながっている.
そんなこんなでこの研究も反響はほぼないが,広大に遊びに行ったとき懇親会で伊森先生に言及いただいて大変うれしかった.
オーバードクター中,学位取得前の最後に執筆した論文.
私の指導教員の下平先生は以前(複数のスケールから外挿する)マルチスケールブートストラップ法を提案されていて,大変な引用数になっている.
その流れもあり,私が修士課程にいたくらいの頃から,k近傍法も0に外挿すればいいんだよ!というアイデアが下平先生により披露されていた.
研究室の先輩が画像検索などで予備実験をしていたものの,理論的に考えればk=0に外挿するってどういう事なんだ…?という部分が腑に落ちていなかった.
博士号を取れる目途がたち少しだけ時間もできたので,真剣に考えてみると,k近傍推定量をkという「クエリとの距離のランク」を使って外挿をするのではなく,クエリとの距離r(k)を使ってr(0)=0に外挿する方が自然なのでは?ということを思いついた.
言われてみれば当たり前だが当時は暗中模索だったので,自画自賛ながらよく思いついたと思う.
実用ではkでやっても距離r(k)でやっても大差はないし,むしろ厳密にやらない方がうまくいったりするのが現実ではあるが,
理論としては整合的だし完全に腑に落ちるストーリーとなって,下平先生にも納得いただいたのはよかった.
では理論もやるか,ということでノンパラ統計における聖書ともいうべきTsybakov本などを読んでいて,カーネル回帰(Nadaraya-Watson)は局所多項式で補正できることが書いてあるが,そういえば近傍法で
高次のバイアス補正ってないよなと思ったら,Samworthが2012年に難しそうなAoS論文で最適レートを達成していた.ただし彼の方法はものすごくテクニカルな構成法から導出されるやや人工的な結果なので,
単純に距離を外挿するだけ,という我々の方法は直感的で良いと思っている.
締め切りギリギリで書いたので証明はかなり乱雑なのだが,
基本的にはChaudhuri and Dasgupta (2014, NeurIPS)のk近傍法+classifierの収束レートにテイラー展開と大数の法則を介した高次補正を入れるだけである…と書くと簡単に聞こえるが,
(ノンパラ統計の証明によく出てくる)非現実的なFixed designでお茶を濁すことは許されず,もちろんRandom designを採用することとし,計算は大変にハードであった.
なお当該論文のKamalika Chaudhuriはアイデアで意表を突くタイプの面白い数理+機械学習論文をたくさん書いていてるので,博士の時によく読んでいた.
単純ながら想像していなかった方向から解決策を持ってくる素晴らしい研究者だと思う.そこから拾ったネタがOkuno and Imaizumi (2023, EJS)などにもつながっている.
話を戻して,結局近傍法の補正論文はマルチスケールk近傍法と命名することになり,別名を仮想的0近傍法とした.かっこいい名前がつくと満足度が高い.
近傍法のきちんとした理論論文を見ると,ほぼすべてが統計理論のトップジャーナルAnnals of Statisticsか機械学習のトップカンファレンスNeurIPSに投稿されていて,
rejectされたら投稿先が無い背水の陣であったが,結局NeurIPSに採択された.
学位取得前は「論文が通るまで会議に現地参加しない」という縛りを己に課していて,さぁ初めてNeurIPSに参加できるぞ・・・と思ったらCOVID-19の影響でオンライン開催となった.
日本時間夜にgatherで開催されたアジア系タイムゾーンのオンライン会場は閑散としており,参加者以外で画面内に映る人間はほぼゼロという悲しい状況ではあったが,
見かねたのか東大の松田さんが訪ねてきてくれて嬉しかった.