FC2ブログ

子供の落書き帳 Remix

15/4/13:ひと月に一度更新するブログになってしまっている

スポンサーサイト
--/--/--(--) --:--:--

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. --/--/--(--) --:--:--|
  2. スポンサー広告

Developers Summit 2018 Summer 感想。データサイエンスを学んだ一日
2018/08/05(日) 21:39:15

2018年7月27日に開催されたDevelopers Summit 2018 Summerに参加しました。

講演関連資料は以下。
Developers Summit 2018 Summer、講演関連資料まとめ:CodeZine(コードジン)
業務がすごく暇……えーと、多忙ではなかったので、さっさと有給休暇を申請して出かけてきた。

なお、2018年2月のデブサミ2018の感想はこちら。
Developers Summit 2018 感想。ここでしか聞けない講演がたくさんあった 子供の落書き帳 Remix

【A-1】 AIを支えるGPUコンピューティングの今


【イベントページ】こちら

【スライド】未公開
NVIDIA Japan Presentations on SlideShare の中に上がるでしょう
【感想】
深層学習をやる上でNVIDIAはよくお世話になるものの、NVIDIAの話は聞いたことが無かったので貴重な機会だった。
CPUとGPUを比較して見てみると、トランジスタの数はそれほど変わらない。
しかし演算機の数はGPUのほうが数倍多い。これは同じような計算を大量に並行して実行することに特化しているためである。
1世代前のTesla P100と比べても、Tesla V100はかなりの性能向上がなされているらしい。


【B-4】 「教えて!goo」3000万件のQAデータから、世界初の長文生成AIが生まれるまで~AIによる恋愛相談の裏側~


【イベントページ】こちら
参考リンク:
恋愛のお悩みにお答えします | 教えて!gooのAIオシエル
「教えて!goo」 恋愛相談カテゴリーへのAI導入開始のお知らせ | gooプレスリリース (2016年9月6日)
【スライド】未公開
【感想】
factoid:答えが一意に定まる単純なQ&A
例:「富士山の高さは?」「本能寺の変は何年に起きた?」とか
こちらはIBMのワトソンがクイズ番組で人間に勝つなど、すでに高い精度が出ている。
non-factoid:答えが多様、複雑、長文となるQA
例:教えてgooやその他質問系のサイトの多くの投稿
こちらは難易度が高く、精度の良い結果はまだ出ていない

長文に一貫性をもたせて、回答が支離滅裂になってしまわないよう、回答文を作るときは構成を固定している。
「共感、結論、理由、励まし、名言」の構成にしている
30000件回答して、good17%という率は、他のユーザと比べてもそんなに引けを取らない。

講演の中で、実際の質問と回答の例が登場したが、質問と回答の内容ががイマイチ噛み合ってないように見えた。まだ改善の余地があるのかもしれない。

【C-5】 人脈の情報はどうやって蓄積されるのか?Sansan/Eight のデータエンジニアリング


【イベントページ】こちら
【スライド】未公開
【感想】

具体的なデータ分析/機械学習の技術の話ではなく、やや抽象的なデータの考え方・捉え方の話。
3点あって、

1:取り扱いは慎重に
個人情報、機微な情報か機微でない情報か
公知の情報から価値を生み出すのは難しい。一方で、機微な情報は高い価値を持つかもしれないが、収集が難しい。
取り扱うデータによって、どこに力点を入れるか、使い分けを意識する

2:構造の複雑さに注意
単純なイベントログは時系列で構造が簡単。一方で、基幹系などの構造化されたデータは取り回しが難しい。
データ構造が違うと適用できる手法も違ってくる。(やろうとしている分析手法があっても、構造のとり方次第ではその手法が使えないかもしれない)
構造の複雑さはその後の処理に影響している
sansanの名刺データはそれなりに複雑

3:フェーズにおけるユーザ価値
データを収拾・蓄積する方法は、データの種別によって分かれる
 無料で手に入る公開データ(気象庁から過去の気温データを取るとか)
 有料で手に入れる
 金を払ってみんなにアンケートを取って(新しい製品の感想などはこれが必要)
 ゲームのログはみんなの行動が蓄積されてくる など…
出口(価値提供の相手)をどっちにするかが大事
入手先と出口(価値提供の相手)が同じとは限らない
(ゲームのログを見て新たな施策を打つ場合は価値提供の相手がゲームのユーザで、入手先と等しい。
一方、気象庁からデータを集めてきて、そこから新たなサービスを開発したとしても、おそらくその価値提供の相手は気象庁ではないだろう)

実務でデータ分析を扱っているわけではないからすぐに役立つというものではないが、
データを扱う際には留意しておきたいと思った。
また、名刺データ(個人情報のかたまり)を、個人情報を保護しながらどうやって性格に認識処理するか、という観点の話もあり、なかなか興味深かった。

【A-7】意外と知らない?!GitHubの新機能を紹介します


【イベントページ】こちら
【スライド】Developers Summit 2018 0727 - Speaker Deck
【感想】

普段はGit / GitHubをほとんど使っていないので、発表内容を書いたとしてもスライドの丸写しになってしまう……
スライドを見るのが一番わかり易いと思う。
最近半年、1年の間に新たな機能が多く開発され、長足の進歩を遂げたことに驚いた。

講演者が口頭で補足説明していたが、GitHubには「ユーザが嫌な思いをしないようにするための機能を開発する部署」があるというのがすごいと思った。
・Issueを保護状態(特定ユーザのみ書き込み可能)
・ユーザをブロック
などの機能を開発しるらしい。

新機能をの情報を追いかけるためには、以下のサイトを見ると良いとのこと。
The GitHub Blog (日本語版)
The GitHub Blog (英語版)
The GitHub Blog changelig(英語。細かい変更に関しても記載してあるので、機能追加を網羅したい人向け)

【B-8】Kaggleで描く成長戦略~個人編・組織編~


【イベントページ】こちら
【スライド】
【感想】

kaggleやってる人の話って聞いたことなかったな、どんなものだろう、と思ったので聞きに行った。
ちなみに俺自身は、kaggle登録、kernel上で触ってみるまではやったけどsubmitはしたことない、という状態である。
参考:kaggle初心者はカーネルを読むだけでも勉強になったよ 子供の落書き帳 Remix

競技で上位に入れば賞金は入ることがあるけど、それは続ける理由にはならない。
(それは確かにそうだ。賞金がもらえるのはごく一握りの数人だけだし、GCPとかAWSで動かそうとしたら費用もかなり掛かる)
「単純に上位に入るのが面白いから(ネトゲと同じ感覚)」「成績を上げるためにデータ分析の新しい手法を習得できるから」あたりがkagglerがkaggleを続ける理由であるらしい。
そういう意味では、モチベーションの源泉は競技プログラミングと似ている。

下の記録ツイートが講演者に拾われて「お、こうまとめてくれると嬉しいですねぇ」みたいなことを言われたので思わず照れた。



このツイートを受けて口頭で補足説明していた部分があり、資料には出てこないので書いておく。
kagglerが在籍している全社基盤部分の部署とは別に、それぞれの事業領域の中にもデータ分析担当者がいて、各事業をよく知った上でデータを分析して施策を考えている。
その分析に対してkaggglerの人たちが真っ先に考えるのは、まずその目指すべき指標・評価値が適切かどうかということ。不適切な評価値を設定してしまうと、それをハックされかねない。
(筆者注:例を挙げると、オウンドメディアに対して施策を打つ上でPVを成果指標にしてしまうと、「じゃあページをたくさん分割すればPVが増える」という施策が出てきてしまうかもしれないが、それが本当に望ましいのか、ということ。)


実のところ、俺自身が最も印象に残ったのはkaggle自体の話ではなく、組織の作り方の話であった。
資料終盤で「データ分析・機械学習に関する組織図」という図がある。
そこにはいくつかに分かれた「データ分析・機械学習の部門」が、それぞれの役割を担っている姿が書かれている。
DeNAではkagglerを成績に応じて採用します、というニュースが広まったため、DeNAの機械学習チームってのはkagglerばっかりなのかと思っていた。
しかし実際にはそうではなく、「実装が得意な人の組織」や「研究開発を担当する組織」もいる。

ひとくちに「データ分析・機械学習」と一括りにするのではなく、各人の得意分野・専門分野に応じて組織を細分化し、そこに対応して担当業務を割り振っているわけだ。
「データサイエンティストを○人にしまーす」と言っている企業は多いけど、DeNAはそこにとどまらず抜きんでている。


アルゴリズムの勉強や、実データの分析やってみるのとは別に、kaggleも挑戦したいな……
うーん。やることが一杯でなかなか大変だ。
  1. 2018/08/05(日) 21:39:15|
  2. プログラミング
  3. | トラックバック:0
  4. | コメント:0

コメント


管理者にだけ表示を許可する

トラックバック

トラックバック URL
http://luvtome.blog5.fc2.com/tb.php/652-bb37059d
この記事にトラックバックする(FC2ブログユーザー)

FC2Ad

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。