インターンでの経験 筑波大学システム情報工学研究科

インターン生情報


筑波大学システム情報工学研究科コンピュータサイエンス専攻 博士前期 1年

実習先決定までの経緯


Shannon Lab 株式会社は人工知能を利用したシステムを開発しているベンチャー企業である。インターンの主な志望動機は人工知能の技術がどのように製品へ使用されているかという興味に基づくものであった。
 決定までの経緯としては、Webページにてインターン生を適宜募集していたため、まずインターンを希望する旨のメールを送った。次に面談日時を決め、面談にて実習の内容及びインターンが始まる前までの事前学習の内容を指定された。事前学習ではPython、Django(Webアプリフレームワーク)、TF-IDF、MeCab(形態素解析ソフト)、CaboCha(係り受け解析ソフト)などの事項について1ヶ月程度予習した。

実習の内容


 
主に会社から与えられる仕事と自分の課題をこなす形となった。自分の課題は以下の2つであった。
• 自然言語処理
◦ CaboChaによる係り受け解析が難しい文章を判別し、フィルタリングするプログラムの開発
• 画像認識
◦ 畳み込みニューラルネットワーク(CNN)を利用した物体・動作認識
◦ 例としては、「猫が歩いている」画像を入力したらと「猫」という物体だけではなく「歩く」という動作も認識させる

 また、実習中の一部期間は高専4年生の学生が自分とは別のテーマでインターンを実施していたため、その補助に回ることもあった。

実習の成果・
実習を終えての感想


 

実習の成果としては、係り受け解析に関する文章判別プログラムについては下記のようなルールに基づいたPythonプログラムを作成した。
• 一文節の入力は弾く(例としては「生きる」のような動詞だけの文章など)
• 主語と思われる文節(「〜は」もしくは「〜が」の形をした文節)および目的語である文節(「〜を」という形をした文節)が連続して2回以上続く文章は弾く
• 接続助詞を含む複文の形の文章(「〜だが、〜」のような形)は弾く
• 文章の最後の文節を述語と仮定し、その文節にかかる文節がない文章は弾く
• 分類語彙表による名詞の意味を考慮した係り受け妥当性の判断
◦ 実装できた機能としては「食べる」という動詞に食べ物以外がかかっている文章を弾く機能が挙げられる
 
 また、画像認識の方については、時間の都合上、Caffe(Deep Learningのライブラリ)の開発サーバ上における動作を確認し、CNNを学習させる手順を把握したところまでで終了した。CNNにおける学習手順の把握の際にはCIFAR-10という10クラス6万枚(各々のクラスで6000枚)のデータセットを学習データとして使用した。なお、CNNをはじめとするディープニューラルネットワークは数千〜数万程度の大量の学習データを必要とするため、学習に使う画像データを大量に集める必要がある。したがって、指定したキーワードの画像を収集する画像クローラーのプログラムもPythonにて作成した。作成にはBingの画像検索の結果を使用するBing APIを使用した。Bing APIの仕様上、1000枚程度が収集できる画像の上限であるため、十分な量とは言えないが学習データの収集がある程度可能になった。

 実習の感想としては、自然言語処理に関わる開発をさせていただいたため、研究室での研究分野とは違う領域でも自分の能力が通用したことが自信につながった。また、インターン期間中では下記のような研究室や他社の研究開発系インターンではなかなか体験できない経験をさせていただいた。
• VC(ベンチャーキャピタル)の投資家への会社説明
• 統計数理研究所にて会社の共同研究スタートアップの面談に同席
• 会社の営業の方との対面

後輩へのメッセージ


インターンでは実践的な仕事と課題が与えられ、自分の実力を試しつつ伸ばすことができる。また、自然言語処理、音声認識の分野を研究している院生は、会社の製品に使われている技術に関係するため大いに活躍できるだろう。
 また、実習中の課題は基本的に1人で取り組むため、チームで課題をこなす形ではない。しかし、過去のインターン生(高専5年生)や会社に関与している学生などとも合う機会もあったため、同年代の学生との交流も見込める。
 最後に、インターンの担当者(会社の社長)からは、技術的なアドバイスだけではなく起業したあとのエピソード及び経営や人事など意思決定を下す立場の人間としての話も伺えた。ベンチャー企業や起業などに興味のある人は大いに参考になると考えられる。

Comments are closed.