わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

卒研生にアドバイス

今年度になってからいくつか,学生の問い合わせに対して答えた内容を,より広い範囲に適用できるよう,書き直してみました.

1. 技術力

大学院進学を視野に入れて,卒業研究を進めよう,ということですね.であれば,研究活動を進めながら,技術力をつけていってください.
「技術」あるいは「技術力」とは,我々の分野では

  • 問題に応じて,適切なソフトウェア(既知の解法)を選択できること
  • 既存のソフトウェア(またはその組み合わせ)でうまくいかないとき,自力でプログラムを書くこと

を言います.後者については,「うまくいかないと判断できること」を含めてもいいでしょう.
そして,我々の分野では「研究=問題解決」と理解しておくべきです(「研究=真理の探究」という分野もありますが).技術力は,どのような形であれ問題解決に不可欠なのです.

2. 卒業研究の説明

卒業研究については,

  • 対象:「何に対して」
  • 手段:「何を使って」
  • 実施内容:「何をするのか」

の3点セットを固めましょう.もちろん,4月中に確定というわけではありません.研究活動をしていく中で,よりよいキーワードやフレーズが見つかることもあります.
「あなたはどんな研究をしているのですか?」と問われたら,その3点セットをつなげて,口頭で説明できるようにしてください.
類似する研究だとかハードウェア・ソフトウェア・サービスの名称を持ち出して,それとの違いを問われたら,たいていは,それと自分の研究とで,この3点セットのうち一つか二つは違っているので,そこを指摘すればいいのです.

3. 「論文を読んでいます」

就職や院試の面接対策になるのかどうか分かりませんが,「関連研究の論文を読んでいます」は,不用意な受け答えに感じます.
そう言ったら,「誰がいつ発表した論文ですか」だとか「その研究の特徴を説明してください」と聞かれるかもしれないのです.
かといって,手を動かしていない研究をうそぶくわけにもいかないので…論文を読んで勉強中というのであれば,「関連研究の論文を読んでいます」と言うのも,仕方がありません.
その上で,「誰が」「いつ」「どんな」について,答えを用意しておくのがいいでしょう.
といっても,就職の面接では「誰の論文」について,我々の分野では有名人であっても,通用しないので,「〜の創始者」だとかいった修飾語も,必要かもしれません.「指導教員」や「研究室の先輩」が書いた論文なら,人名不要でそのように言えば十分です.

4. 将来性

我々の研究室では今年度,全文検索に焦点を当てて,卒研テーマを割り振ったのですが,もしかしたらどこかで,「全文検索システム(を研究すること)に,将来性はありますか?」という問いを受けるかもしれません.
「あなたの研究室でやっている研究は,Googleに勝てますか?」「すでにGoogleや世界の研究者がやっていることなのではないですか?」とすると,少々,意地悪なようにも見えます.
研究室としては,Googleに正面切って挑むことはしません.インターネットリソース全体から見れば,小さなデータ量だけれど,使う人からすると多量で多様なデータに対して,「特徴」を見出し,利用に最適なシステムを構築しています.
別の言い方をすると,データベースシステムの開発を通じた問題解決を,研究室では継続して行っており,その実現の手段に,DBMSではなく全文検索エンジンを採用しているといったところです.
ともあれ,将来性・有用性は,自分の言葉で言えるようにしておいてください.

5. 将来性ふたたび

「これからはビッグデータだ.どことも手を組まず,研究室で,ちまちまやっているような研究に,将来はない」と,指摘をされたら,どう反論しますか?
まあそういった手厳しい意見に真っ向から,何を答えても,相手に伝わるのかどうか分かりませんけどね.
ただ,こういう解釈はできると思います.まず,3年配属のスライド---もう忘れているでしょけど---には,「計算機」「人」「データ」の3つで三角形を構成する図を入れています*1
これを一つ一つ,見直してみますね.「計算機」は,これまでどうなっていますか? …小型化してきていますね.これはまぎれもない事実ですし,これからも変わらないでしょう.*2
「人」は,大きくなりましたか小さくなりましたか? …背丈・体格は,1世代,2世代前よりも良くなっていると思います.ですが,頭の中に持つ「知識の量」は,大きいどころかむしろ小さくなっています
別に,ゆとり世代のことを言っているのではありません.我々が関わる範囲だと,まず,LL (Lightweight Language)は,プログラマの負担を軽くする言語だと言われています.GTD (Getting Things Done)というのも一時期,流行しました.Evernoteその他のノートアプリも,情報を頭の中にため込むな,外に出せ,という考え方があるわけです.
そういったことからすると,「博覧強記」なんてのは,もう昔の言葉になりましたね….
さてさて3番目の「データ」ですが,確かにアウトプットされているデータの総量は,年々増える傾向にあります.
しかしやっぱりここで考えておきたいのは,そのすべてのデータが,ユーザにとって,本当に必要なのかということです.個人情報保護その他で,情報の管理が大事だという認識は,一般の方々のほうが,生のデータを扱う我々よりも強いかもしれません.
こうして,計算機は小型化している,計算機やデータと関わる人の持つ,知識のキャパシティも減る傾向にある,データもダウンサイジングが期待されていると言えるわけで…
そこで「どのようなデータを,どんな形で,どれだけ持っていれば,利用者が満足できるか?」と問題を設定しましょう.利用シーンによりますが*3,多くの場合で実用的な課題なのです.学術的な課題にさえ,持って行くことができるのです.
その学術課題に答えるのが,複数の組織であるか,大学のイチ研究室であるか,あなたの1年間の卒業研究であるか,というのは状況や利用者や,利用できるデータに依存するわけです.

6. 基礎知識

全文検索」の基礎知識,ですか?
そうですねまずは,形態素解析N-gram転置インデックス,再現率・適合率・F値などを,全文検索の処理と関連づけて,自習してみてください.
覚えたと思ったら,その次の日に,何も見ずにノートと鉛筆だけを用意して,書き出してみてください.再現率と適合率はもちろん,ベン図で描けるようにもしておきましょう.
本やWebの情報をもとに,答え合わせをして,あまりにひどかったら,もう一度同じことをすれば,おそらく頭の中に入ると思います.
ここでまた就職対策・院試対策ですが,全文検索を研究テーマとした場合,学科に「全文検索」と名のつく授業科目はない点にも,注意をしておきたいところです.
とはいえ,授業で学習してきたことと「全文検索」は,完全に違うわけではないんだから,接点になるものがあるはずで,それは何なのかを言えるようにしておけば,十分だと思います.
(リリース:Sat Sep 1 02:23:15 2012ごろ)

*1:

*2:補足.計算機の高性能化・多様化には,注意をしたいところです.これはブラックボックス化を意味します.しかし我々は,中身がどうなっているか分からず機能・性能面で不安な機器は,利用しないという選択肢を持っています.

*3:利用者=問題解決者,というケースも,≠のケースも,考えておきたいところです.