【Live配信】時系列データ、言語データ、画像データに対する機械学習のための前処理

本セミナーは6/29に延期し、会場受講を無くし、Live配信のみの開催になりました。

機械学習の解析処理の成否を決める前処理の具体的すすめ方
時系列/言語/画像データを対象に、
前処理とは何か、代表的な手法を解説!

セミナー趣旨

 前処理とは何らかの解析処理を行う前に行う処理のことです。前処理の効果は大きく、以降に続く解析処理の成否を決めているのが、
実は、前処理とも言われています。ただ前処理は言葉的には明確ですが、具体的にどういう処理を行うかははっきりしていません。それは前処理自体の入出力が様々だからです。まず前処理の入力は、通常、最初に得られた形でのデータですが、どこから得られたデータなのかでその形態は様々です。また前処理の出力は、その後に続く解析処理への入力になるのですが、その解析処理が多様なので、結果的に前処理の出力も様々です。
 本セミナーでは上記の点を踏まえ、解析処理としては機械学習の処理を念頭におき、扱うデータとしては時系列データ、言語データ及び画像データを対象とします。データに対する前処理とは何か、標準的にはどういった処理があるのかを解説します。

習得できる知識

・時系列データ分析に対する前処理技術
・自然言語データに対する前処理技術
・画像データに対する前処理技術

セミナープログラム

1.時系列データ
 最初に時系列データ分析の前処理について解説します。時系列データは扱いが難しく、分析対象によってどのような
前処理が必要なのかは様々です。ここでは一般的に時系列データ分析の前処理として扱われるWindowサイズの調整、データの正規化、変数変換、スムージングについて解説します。また周期性に関する注意も行います。更に時系列データから外れ値(異常値)を検出・削除する処理は前処理とも捉えられますが、外れ値を検出すること自体が独自のタスクである場合もあります。ここでは時系列データから外れ値検出についても代表的手法を紹介します。

 1.1 Windows サイズの調整
 1.2 データの正規化
 1.3 変数変換
 1.4 周期性に関する注意
 1.5 外れ値検出

2.言語データ
 次に自然言語の機械学習処理のための前処理について解説します。扱う言語は日本語と英語に限定します。日本語の場合、まず問題となるコードの問題について解説します。次に自然言語処理の場合、原始データは通常プレーンな文書ではありません。ここでは原始データがhtml 文書の場合に対象を絞って、それをプレーンな文書に変換する方法について解説します。プレーンな文書が得られた後は句読点の統一や無駄な空白の除去などといった俗に言うクリーニング処理が必要であり、どのような処理があるのか、どうすれば簡単に処理できるかを紹介します。その後に行うべき処理では単語分割です。単語分割についてはほぼできあがった技術ですが、単語数を予め定めるニューラルネットワーク翻訳などではSubword の技術が必要なので、この点について解説します。言語が英語の場合、日本語の場合には生じなかった、大文字と小文字の問題や、語尾変化の問題などがあります。このように英語特有の前処理について解説します。最後に単語列から文書に対する特徴ベクトルを作成する手法について解説します。基本はBag of words モデルと TF-IDF の組み合わせです。また文の埋め込み表現についても解説します。

 2.1 日本語コード
 2.2 構造化文書から plain テキストへ
 2.3 クリーニング処理
 2.4 英語固有の前処理
 2.5 Bag of words と TF-IDF
 2.6 文や文書の埋め込み表現

3.画像データ
 最後に画像の機械学習処理のための前処理について解説します。まず画像は様々なフォーマットで保存されていますので、それらファーマットの違いと変換処理について解説します。次に画像のノイズ除去の手法を紹介します。また実際に記録されている画像から物体検出を行いたい場合、閾値処理とフィルター処理を前処理として行うことが重要です。これらの処理について解説します。またディープラーニングで画像を扱うためには、実は、入力画像のサイズの問題が深刻です。これについて解説した後に、サイズの変更方法を述べます。最後に画像の機械学習の精度を改善する Data Augmentation の個々の手法について解説します。

 3.1 画像のフォーマット変換
 3.2 画像からのノイズ除去
 3.3 閾値処理
 3.4 フィルター処理
 3.5 画像サイズの変換
 3.6 Data Augumentation

  □質疑応答□

セミナー講師

茨城大学 工学部 情報工学科 教授 博士(工学) 新納 浩幸 氏

専門
 自然言語処理、機械学習、統計学 
略歴
 1985年3月 東京工業大学 理学部 情報科学科 卒業
 1987年3月 同大学院 情報科学専攻 修了
 1987年4月 富士ゼロックス(~'88年4月)
 1988年5月 松下電器(~'93年3月)
 1993年4月 茨城大学 助手
 1997年3月 東京工業大学(田中穂積教授)より博士(工学)を取得
 1997年 茨城大学 講師
 2001年 同大学 助教授
 2015年 同大学 教授

セミナー受講料

44,000円( S&T会員受講料41,800円 ) ※資料付(事前にEメールでお送りします)
(まだS&T会員未登録の方は、申込みフォームの通信欄に「会員登録情報希望」と記入してください。
詳しい情報を送付します。ご登録いただくと、今回から会員受講料が適用可能です。)
S&T会員なら、2名同時申込みで1名分無料
2名で 44,000円 (2名ともS&T会員登録必須/1名あたり定価半額22,000円)

【1名分無料適用条件】
※2名様ともS&T会員登録が必須です。
※同一法人内(グループ会社でも可)による2名同時申込みのみ適用いたします。
※3名様以上のお申込みの場合、1名あたり定価半額で追加受講できます。
※受講券、請求書は、代表者に郵送いたします。
※請求書および領収証は1名様ごとに発行可能です。
 (申込みフォームの通信欄に「請求書1名ごと発行」と記入ください。)
※他の割引は併用できません。

※テレワーク応援キャンペーン(1名受講)【Live配信/WEBセミナー受講限定】
1名申込みの場合:35,200円 ( S&T会員受講料 33,440円 ) 
※1名様でLive配信/WEBセミナーを受講する場合、上記特別価格になります。
※備考欄に【テレワーク応援キャンペーン】とご記入のうえお申込みください。
※他の割引は併用できません。

受講について

【ライブ配信(Zoom使用)セミナー】

 ・本セミナーはビデオ会議ツール「Zoom」を使ったライブ配信セミナーとなります。
 ・お申込み受理のご連絡メールに接続テスト用のURL、ミーティングID​、パスワードが記されております。
  「Zoom」のインストールができるか、接続できるか等をご確認下さい。

 ・セミナー開催日時に、視聴サイトにアクセスしていただき、ご視聴ください。
 ・セミナー資料は事前にEメールにてお送りします。
 ・開催日時にリアルタイムで講師へのご質問も可能です。
 ・タブレットやスマートフォンでも視聴できます。


※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


13:00

受講料

44,000円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込 または、当日現金でのお支払い

開催場所

全国

主催者

キーワード

機械学習・ディープラーニング   AI(人工知能)   情報技術

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


13:00

受講料

44,000円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込 または、当日現金でのお支払い

開催場所

全国

主催者

キーワード

機械学習・ディープラーニング   AI(人工知能)   情報技術

関連記事

もっと見る