リクルート式ビッグデータ活用術

Description
1. リクルート式 ビッグデータ活用術 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータ部…

Please download to get full document.

View again

of 49
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Technology

Publish on:

Views: 2 | Pages: 49

Extension: PDF | Download: 0

Share
Transcript
  • 1. リクルート式 ビッグデータ活用術 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータ部 シニアアーキテクト 石川 信行
  • 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 RTC ITソリューション統括部 ビッグデータ部 シニアアーキテクト 兼アドバンスドテクノロジーラボ 石川 信行 神戸大学大学院農学研究科 害虫制御学専攻 新卒入社7年目。 カーセンサー.netで営業研修、Javaを用いたシステム 開発に参加し、その後Hadoopの導入検証に従事。 主要事業にHadoopを導入したのちビッグデータGに合流。 現事業対応リーダー、画像解析など技術開発に従事。 海水魚飼育 外国産昆虫飼育 スキューバダイビング 自己紹介
  • 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 ビッグデータ部とビッグデータを取り巻く環境 3 4 5 最近のデータ活用状況紹介 新技術検証内容とその方向性 まとめと今後 アジェンダ 仕事内容のイメージ 6 リクルートグループについて
  • 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートグループについて
  • 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル さまざまなドメインでマッチングモデルに基づいたビジネスを展開。 Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  • 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  • 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Infrastructure /Security Project Management UXD/SEO Internet Marketing Big Data Solutions Technology R&D Systems Development リクルートテクノロジーズの立ち位置 リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。 Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Business/ Service Function/ Support
  • 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ部と ビッグデータを取り巻く環境
  • 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番165台/開発24台 1343.2 TB
  • 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るデータ解析案件状況 約200 データ解析案件数(年間) ビッグデータ部の案件従事人数 212
  • 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ解析従事者の増加 ・ビッグデータG創設期 (2012年) ・解析従事者 66名 ・2013年 ・解析従事者 119名 ・2015年 10月1日現在 ・解析従事者 212名 社内のデータ活用ニーズの高まりに応じて、データ解析従事者の数が年々増加。
  • 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仕事内容のイメージ
  • 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 日頃のスケジュール 会議禁止の 技術開発Day リクナビNEXTの 部長とブレスト 部の戦略にシニア 職として参加 R&D周りアイディ アフラッシュ SUUMOの事業開発 室と打ち合わせ 自動原稿校閲機能 開発定例 RCA、RJBの悪友 MPさんと お酒をたくさん飲む
  • 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 事業の参謀としての役割 ・MP ・事業企画 ・営業 ・BDGメンバー 提案 相談 事業のみなさんと協働しデータ解析を行う。 こちらから技術ベースの提案を行ったり、相談を受けたりする。
  • 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. トライアルを回しながら実装をしていく 相談 ビジネ ス検 討 プレ 分析 デモ 開発 要件 定義 実装 開発 テスト 効果 分析 PDCA
  • 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介
  • 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 紹介案件 画像解析クロスユース施策  ネイルデザイン判定  不適切画像校閲  アイテムレコメンド 中古車情報サイト  カスタマーアダプティブ UXデザイン
  • 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 カーセンサー.Net
  • 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:カスタマーアダプティブUXデザイン 全体最適 個別最適 (カスタマーアダプティブUXデザイン) 従来はカスタマーを集合体と捉えた時に、 アクション貢献度の高い画面へ誘導する改善 本施策は検索KWDや絞込み条件などをみて、 一人一人にあった画面(機能)へ誘導する改善 カスタマーアダプティブUXデザインを実現する上で重要となる2つのポイント 1. Hadoopを使った 全カスタマーのログ解析 2. BIGDATAに裏付けられた コンテキストの解釈 通常のツールでは集計に膨大な時間を要する 全カスタマーの「行動(画面遷移)」と「様態 (滞在時間etc)」の解析を、Hadoop利用に より短時間で実現。 Hadoopにより集計したログに基き、カスタマー の行動の要因となった「考え」「コンテキスト」を 推測。「データに血を通わせる」解釈の作業を 加える事で、よりカスタマーアダプティブなUXの 実施に繋げる。 共 通 の 画 面 C V 共 通 の 画 面 共 通 の 画 面 C V 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C
  • 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:個別最適化フレーム 型化した検討プロセス及びデータを用いた膨大な量のカスタマー行動解析と可視化の自動化。 目的・方針整理 仮説の設計 データ解析 モデル化 シナリオ設計 シナリオ検証 型化した検討プロセス 各事業ログ SiteCatalyst アプリログ‥ Hadoop バッチ集計 D3.jsで ログデータを図示化 カスタマー行動モデル の可視化 ※可視化されたデータの表示画面 BIGDATAを用いたカスタマー行動解析及び可視化の自動化 ★自動化
  • 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:打ち手の例 UI施策の一例(バルーン表出) 物件一覧に初回来訪し、物件のヒット件数が30件以上だったカスタマーにだけ、地域絞込み機能の活用を促す導線を表示 物件一覧から地域絞込み画面へ誘導
  • 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 クロスユース施策
  • 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. サイト間クロスユースレコメンド  リクルートポイントからホットペッパーグルメのほか、じゃらん、ホットペッパービューティ、カーセン サーなどからポンパレモールへのクロスユースレコメンドを展開。  リクルート全社でのクロスユースレコメンドを推進している。
  • 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Genesis API ※現在絶賛改装中のため、構成は日々変わっています Hadoop HBase 裏側の仕組み レコメンド用 JavaScript 行動ログ モニタリング API 行動ログ (蓄積) DWH(Exadata) Hadoopクラスタ 事業データ 事業データ レコメンドデータ 作成バッチ ログ蓄積 バッチ 事業データ ディスプレイ API レコメンド API レコメンドデータ ログ蓄積 API モールAPI (アイテム情報取得)  事業は規定の組み込み用JS数行とJS、 CSSファイル配置のみで作業終了  独自デザインのCSSやHTMLでレコメンド面 を作りたい場合でもフロントTのみの作業で 完結  クラウド、オンプレ、スマホ、PC、会員、 非会員のすべてのケースで対応可能 Point
  • 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. JSによるリアルタイムグラフ描写  レコメンドの表出ログ、クリックログをリアルタイムに取得し、Hbaseに格納  クリック数やCTRなどの本当に必要な特定項目に絞り、可視化の簡素化  CRMチームが施策実施後直に効果が分かるツールとして積極利用
  • 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 画像解析
  • 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:スマホWEBにおけるネイル判別実装 似ているデザインから探す カラーから探す 39色から選択可能 似ている画像を表示 New① New② New① New②
  • 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:デザイン判別フロー INPUT画像 爪箇所判別 爪画像のベクトル変換 → ①(0.3,0.2,0.4,…) ②(0.4,0.1,0.3,…) ③(0.3,0.2,0.5,…) ④(0.7,0.8,0.1,…) ⑤(0.4,0.2,0.4,…) 予め作成した判別モ デルとベクトルを照合 ワンカラー フレンチ アニマル リボン 逆フレンチ ① ② ③⑤ ④ デザイン判別結果 逆フレンチ4本 アニマル1本 が映っていると判定
  • 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Active Learning Convolutional neural networkで生成したモデルに対して、日々アップロードされる画像から 「これをモデルに追加したら判別精度が上がるはずだという画像」をレコメンドしてくれるシステムを構築。
  • 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1. あらかじめ作成したモデル推定結果 を利用 ActiveLearning 対象データ選定処理 HBase HBase 投入処理 画像 リスト 2. 現状のモデルが推定に迷っているような データを対象として選び出す。 3. 作成した画像の リストを HBase に 投入 4. タグ付け WebUI からタグ付けを行う ギャザリー用 定常画像解析 美容ネイル用 定常画像解析 日々の処理 データの モデル 推定結果 Active Learning学習データ作成フロー 5. モデルに画像を追加し、再構築
  • 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 自動ハイパーパラメータチューニング DFO(Derivative Free Optimization) による自動ハイパーパラメータ チューニングを導入。 これにより、人の手の介在なくし てDeep Learningモデルの継続 的判別精度向上を実現してい る。
  • 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 新技術検証内容とその方向性
  • 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータの概念 Volume データ量 データの多様性 Variety Velocity データの発生頻度 ビッグデータの定義で示されるデータの多様性に注目。
  • 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 非構造データに注目 リクルートはフリーペーパーや雑誌から始まったという歴史があり、いまだ内部に画像、テキスト、動 画などのさまざまな非構造データが存在する。 テキスト 画像
  • 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 多様化するデータ解析 利益貢献 コスト削減 レコメンデーション 帳票レポート 指標・目的  CVR最大化  CPA最適化 指標・目的  最適化  次期戦略策定 指標・目的  無駄の排除  工数削減  人はよりクリエイティブに 作業代替・支援 (AI領域) 非構造データは、機械的解釈のむずかしさから人の手でその解釈が行われてきた。 テキストや画像などから特徴抽出をするための手法が数多く、オープンソース化され 機械で扱えるようになってきた昨今、レコメンド、帳票以外に「人の作業代替」という新たなジャン ルのデータ解析ソリューションが増えつつある。
  • 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 最近のR&D取り組み一覧  原稿校閲  マルチモーダル検索  A3RT 今年の新人Tの実業務 以降のスライドは弊社の許可無く対外的に参照・配布しないようお願い申し上げます。
  • 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. R&D取組紹介 原稿校閲
  • 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 背景  リクルートにおいて広告主であるクライアント原稿の品質担保は大事な要素である  現在、多くの人件費をかけて「人手で」校閲作業を行っている。  一方で、校閲作業は人のナレッジや感覚に左右され、品質が一定ではないばかりか、すべての 原稿を人手でチェックすることは労力的には難しい状況である。 この校閲作業を機械で一部代替できないかという取組を開始している。
  • 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. プロダクト開発状況  一部の事業と協力して検証を開始している。  はじめはルールベースのものから実装し、機械学習による分類やDeep Learningを用いた誤 字脱字チェックなど実装難易度をあげていくという進め方。  100%人の代替は不能ということをきちんと事業と認識しながら進めている。要はその人の作 業をリプレイスする意味合いであり、その人自身の作業も100%の精度ではできていないこと を自覚する必要がある。
  • 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. DeepLearningによる誤字脱字チェック  原稿データを学習させたモデルに文章を読み込ませ、その系列のなかで特定の単語が出現す る確率を算出。確率が閾値より低い場合はアラートをあげ、代わりに確率の高い単語をサ ジェストする機能を開発。
  • 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. R&D取組紹介 マルチモーダル
  • 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. マルチモーダル  画像の特徴量とテキストの特徴量を同空間(マルチモーダル空間)へプロットする。  テキストをWord2VecやRNNでベクトル化、画像をCNNでベクトル化する。  同じベクトル空間にプロットさえすれば、テキスト、画像同士や相互に足し引きが可能となり、 ベクトル空間上を自由に行き来し再現できる。  これをリクルート媒体の情報探索に応用できないかを考える。
  • 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. デモと想定施策  例えば、美容領域などで直感的な検索ができないかを実際のデータを用いて提案用デモを 作成している。 画像学習データ ヘアスタイル画像 セミロング ブラウン・ベージュ ナチュラル セミロング アッシュ・ブラック モテ パーマ ショート アッシュ・ブラック ナチュラル ロング アッシュ・ブラック ナチュラル セミロング ゴールド ナチュラル パーマ テキスト学習データ 画像に対応するテキスト セミロング ゴールド ナチュラ ル パーマ Long Short-Term Memory recurrent network (LSTM) Multimodal Encoder 画像・テキストベクトル化 Convolutional Neural Network (CNN) Multimodal Space 画像・テキスト混在 ベクトル空間 セミロング ゴールド ナチュラル パーマ 画像と画像に表現している テキスト情報が、近似した ベクトルとして表現される Multimodal Decoder 画像・テキスト特徴量抽出 Structure-Content Neural Language Model (SC-NLM) Words Distance Content 画像 Structure テキスト 品詞情報 Context テキスト Attribute
  • 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. R&D取組紹介 A3RTシリーズ
  • 45. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RT 社内向けプロダクトの提供・ブランド化 「必要な最新テクノロジーをいつでも手軽に」 をコンセプトに誰でも気軽に機械学習を用いたビッグデータソリューションを利用できるように社内 向けのプロダクトを開発している。
  • 46. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RT ラインナップの一部 誰でも簡単に利用できるレコメンド用WebAPI 沢山の意見の中から代表的なコメントを自動的に抽出できる 要約API PredictをGUI操作だけで行うことが可能なテキストの自動分類ツール
  • 47. 47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめと今後
  • 48. 48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ活用の今後 データの活用周りの商品(エンタープライズ、オープンソース問わず)、 ロジック、活用事例などの最新情報をキャッチすることを心がける。 どんなデータでも扱えるように知見を集約しておく、難しい技術や課題 にも積極的にチャレンジしていく。 コードのオープンソース化が進み、競合優位要因が「コード保有」から 「データ保有」「施策接続力」にパラダイムシフト。ビジネスの感覚も忘れ ずに、事業と二人三脚で案件を進める。 1 2 3
  • 49. ご静聴ありがとうございました リクルートテクノロジーズ
  • We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks