【中止】データ分析における特徴量エンジニアリング〜多種多様なデータを扱う際の原理と実践〜

47,300 円(税込)

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、コンビニ払い

このセミナーの申込みは終了しました。


よくある質問はこちら

このセミナーについて質問する
開催日 10:30 ~ 16:30 
締めきりました
主催者 株式会社 情報機構
キーワード 機械学習・ディープラーニング   情報技術
開催エリア 東京都
開催場所 【大田区】大田区産業プラザ(PiO)
交通 【京急】京急蒲田駅

地理空間・テキスト・画像データなど
多様な形式のデータに対応した
特徴量エンジニアリングの手法を広く紹介!

セミナー講師

国立環境研究所 生物・生態系環境研究センター 高度技能専門員
株式会社ホクソエム執行役員
瓜生 真也 先生
【略歴】

2014年、横浜国立大学大学院環境情報学府 博士課程前期修了。
株式会社ナイトレイでのデータ分析エンジニア職を経て、
国立環境研究所生物センターにて高度技能専門員。
株式会社ホクソエムでは執行役員として在籍
【専門】
空間解析、テキスト分析、自然風景画像を用いた機械学習モデルの開発。
データ分析チームにおける分析基盤構築と再現性の向上。
【共著/翻訳】 
「Rによるスクレイピング入門」(C&R研究所)、
「データサイエンティストのための最新知識と実践」(マイナビ)、
「機械学習のための特徴量エンジニアリング」(オライリー・ジャパン)
【付録】 
「Rで楽しむベイズ統計入門」(技術評論社)
査読協力: 「RとKerasによるディープラーニング」(オライリー・ジャパン)
監修: 「効果検証入門〜正しい比較のための因果推論」(技術評論社)

セミナー受講料

1名47,300円(税込(消費税10%)、資料・昼食付)
 *1社2名以上同時申込の場合、1名につき36,300円
 *学校法人割引;学生、教員のご参加は受講料50%割引。

セミナー趣旨

 特徴量エンジニアリングは、データ分析や機械学習モデルにおいて、予測モデルの性能を向上させる上で欠かせないプロセスの一つです。機械学習や統計モデリングの入力に適切な特徴量を与えることで、より良い出力結果を得ることが期待されます。
 本セミナーでは、実務で扱う多種多様な形式のデータに対応した特徴量エンジニアリングの手法を広く紹介します。前半は、数値、テキスト、カテゴリ変数それぞれの基本的な取り扱いを紹介します。後半は、ドメイン知識が十分にない場合でも適用可能な範囲での、データに固有な形式の特徴量を作成する方法を説明します。
 Jupyter Notebook上で解説を行い、コードはR/Pythonで示します。
 またセミナー後も参加者がコードを復習できるように演習に用いたコード等は共有いたします。

※各自にてノートPCをご持参ください(推奨)
本セミナーは、通常の講義形式となりますが、
プログラムを動かすソースコードをウェブ上で読んだり、手元で試したりするとより理解が深まります。
Wi-Fi環境、各机の下に電源を準備しております
(尚、原則として弊社でのPC準備・貸し出しは行いませんので、予めご理解頂きますよう、お願い申し上げます)。

受講対象・レベル

・ データ分析に求められる基礎知識の理解を深めたい方
  …データサイエンス、機械学習での多くの場面で遭遇する基礎知識を幅広く扱います。
・多種多様な形式のデータを扱う方
  … 地理空間データ、テキストデータ、画像データを対象に、
    これらのデータの特徴量エンジニアリングの手法を紹介します。

必要な予備知識

・RまたはPython、Juliaなどのデータ分析が可能なプログラミング言語の基礎知識があると望ましいです。
・随所で「機械学習のための特徴量エンジニアリング -その原理とPythonによる実践(オライリー・ジャパン)」
 内容に触れます。参考資料として一読いただいていると理解がより深まります。

習得できる知識

1. データサイエンス、機械学習で用いられる手法の基礎
2. データ分析環境への理解…Jupyter Notebook上で、RおよびPythonでの実行例を示します
3. データの前処理、整形に関する知識、RおよびPythonを使った処理の方法
4. 日本語テキスト、時系列、画像、地理空間データの扱いについての基礎知識

セミナープログラム

1 特徴量エンジニアリングについての各論
1. 導入
 ・どのような種類のデータがあるか
 ・特徴量とは何か
 ・前処理の必要性
 ・欠損処理の概要
 ・「守り」の特徴量エンジニアリング
2. 数値の取り扱い
 ・数値データのいろいろ: 連続、離散、二値変数
 ・データの分布
 ・対数変換のご利益
 ・特徴量スケーリング
 ・【実践】回帰問題への適用
3. カテゴリ変数の取り扱い
 ・エンコーディング
 ・One-Hotエンコーディング
 ・ダミーコーディング
 ・多次元データの処理の概要
 ・【実践】分類問題への適用

2 多様なデータの特徴量エンジニアリング
1. テキストデータの取り扱い
 ・テキストの数値化
 ・TF-IDF
 ・日本語テキストの取り扱い
 ・【実践】日本語テキストデータの特徴量エンジニアリング
2. 時間・曜日データの取り扱い
 ・時間/曜日データの特徴
 ・自己相関
 ・季節成分・周期成分
 ・曜日(平日と休日)
 ・タイムゾーン
3. 地理空間データの取り扱い
 ・GISデータの特徴
 ・距離
 ・空間自己相関
 ・住所/地名のデータ
 ・【実践】地価データの地理空間的な特徴量エンジニアリング
4. 話題提供
 ・クラスタリングと次元削除
 ・主成分分析
 ・k-meansクラスタリング
 ・【実践】地価データの分析
 ・特徴量の重要度と取捨選択
 ・「攻め」の特徴量エンジニアリング