ディープラーニングを用いた自然言語処理 ~word2vec, LSTM, seq2seq そしてBERTの要点と利用方法~ <Zoomによるオンラインセミナー>

ディープラーニングによる自然言語処理の各手法を
体系的にわかりやすく把握!

各手法はどのような問題を解くことができるのか?
どのようなツールが存在し、具体的にどう使うのか等々・・ 

特に注目されている BERTの利用方法についても易しく解説!
日本語データに対する適用や、各分野でのコーパスを利用した学習の活用法はどうすれば良いのか等といった、実践面での解説を中心に行います。

セミナー趣旨

 本セミナーでは自然言語処理の分野で使われるディープラーニング技術を解説します。内容は大きく2つに分かれます。
 セミナーの前半では、word2vec による分散表現、LSTM による系列データの解析、seq2seq モデルによる系列変換を解説します。実際に使えるツールの実行例を示しながら、各手法がどのような問題に対して、どのように利用できるのかを解説します。
 ただし現在、自然言語処理における中心的なディープラーニング技術は事前学習モデルです。特に 2018年末に Google から発表された BERT は、それまでに使われていた手法を一変させたと言えます。それほど画期的なモデルである BERT ですが、アルゴリズムが複雑で実際に何をやっているのか、またどうやって利用したら良いかわからない等の理由から、なかなか利用できている人はいません。
 セミナーの後半では BERT の中心技術となる self-attention と Hugging Face の transformers を利用した BERT の利用方法を解説します。また文書分類、質問応答、含意関係認識のタスクを取り上げ、BERT を利用した推論プログラムと学習プログラムの例を示し、既存モデルの利用法や fine-tuning の方法を解説します。
 これらディープラーニングを用いた自然言語処理の要点と利用方法を、体系的に講義します。日本語データに対する適用はどうすれば良いのか?各分野でのコーパスを利用した学習の活用法はどうすれば良いのか等といった、実践面での解説を中心に行います。

受講対象・レベル

 ・テキスト処理にディープラーニングの技術を使うことを考えている方
 ・ディープラーニングを用いた自然言語処理の概要や基礎を知りたい方
 ・word2vec、LSTM、seq2seq の基礎を学びたい方
 ・系列ラベリング問題の基礎を学びたい方
 ・Self-Attention の基礎を学びたい方
 ・BERT の基礎、使い方を学びたい方

習得できる知識

 ・ディープラーニングを用いた自然言語処理の概要を知ることができる
 ・ツールを用いてword2vec、LSTM、seq2seq を試せるようになる
 ・ツールを用いて系列ラベリング問題を試せるようになる
 ・Self-Attention がどういった技術であるかを理解できる
 ・日本語 BERT モデルを利用できるようになる

セミナープログラム

1. word2vecによる分散表現
 自然言語処理システムでは単語を何らかの形でベクトル化する必要があります。従来は one hot vector を基本にした高次元疎なベクトルで表現していましたが、ディープラーニングの word2vec と呼ばれる手法により単語を低次元密なベクトルで表現できるようになりました。これが分散表現です。現在、単語をベクトル化する標準手法となっています。

 1.1 分散表現とは何か
 1.2 word2vec による分散表現の構築
 1.3 ツール word2vec の使い方
 1.4 構築された分散表現の利用方法


2. LSTMによる系列データ解析
 ディープラーニングの中で系列データを扱うのが LSTM です。テキストは単語が系列的に出現したものと見なせるので、LSTM は自然言語処理の様々なタスクに利用されます。ここでは系列ラベリング問題を LSTM で解く方法を中心に解説します。

 2.1 LSTM とは何か
 2.2 系列ラベリング問題
 2.3 PyTorchによる LSTM の利用方法
 2.4 PyTorch によるツールの紹介・使い方


3. seq2seq によるニューラルネット機械翻訳(NMT)
 ディープラーニングの手法の中で、seq2seq は自然言語処理において最も大きな影響を与えた手法と言えます。従来、機械翻訳に対しては統計的機械翻訳が中心的手法でしたが、かなり理論が込み入っており、容易に試せる手法ではありませんでした。それに反して seq2seq を用いたニューラル機械翻訳(NMT)は大量の対訳データだけを用意すれば、その言語対に対する翻訳機を構築できます。しかもその翻訳の精度は統計的機械翻訳のものよりも良いです。

 3.1 seq2seq の仕組み
 3.2 NMT への応用
 3.3 翻訳の評価 BLUE
 3.4 サブワード BPE とSentencePiece
 3.5 seq2seq の翻訳以外への応用


4. BERT の基礎
 BERT は Self-Attention を利用して、入力単語列を単語埋め込み表現列に変換します。各単語埋め込み表現が文脈に依存した埋め込み表現となっていることが、word2vec などから得られる単語埋め込み表現とは大きく異なります。ここではまず基本となる Self-Attention について解説します。Self-Attention では単語の位置の情報が消えてしまいますが、位置の情報を保持するために導入された Position Embedding を次に解説します。次に Self-Attention を発展させた Multi-Head-Attention という構造を解説します。BERT の学習にはタスクが必要ですが、BERT のタスクであるNext Sentence Prediction と Masked-Language Model を説明します。

 4.1 事前学習モデル
 4.2 BERT の入出力
 4.3 Self-Attention
 4.4 Position Embedding
 4.5 Multi-Head-Attention
 4.6 学習対象となるタスク


5 transformers の利用
 BERT モデルの構築プログラムは TensorFlow で書かれているために、公開されているモデルも TensorFlow のモデルです。そのため BERT モデルを利用するには基本的に TensorFlow を利用します。ただ TensorFlow は扱いづらく、Keras や PyTorch を利用できれば簡単です。HuggingFace は transformers という BERT を PyTorch で扱うためのライブラリを提供しており、これを使えば BERT を容易に利用することができます。ここでは、まず TensorFlow の BERT モデルを PyTorch の BERT モデルに変換する方法を示します。次に PyTorch の BERT モデルを使ったプログラム例を示します。

 5.1 transformers とは
 5.2 TensorFlow の BERT モデルを PyTorch の BERT モデルへ変換
 5.3 モデルの読み込み
 5.4 tokenizer の設定
 5.5 fine-tuning の方法

6 BERT 活用の具体例

 BERT は様々な自然言語処理のシステムに利用できます。MNLI (含意関係認識)と SQuAD (質問応答)のタスクデータを紹介し、BERT を用いてどのように解くのかを示します。また BERT への入力は基本的に1文あるいは文のペアですが、文書を入力とした文書分類へも応用できます。文書の入力に対する手法を解説し、文書分類への BERT の利用法を示します。

 6.1 GLUE
 6.2 文書分類
 6.3 MNLI (含意関係認識)
 6.4 SQuAD (質問応答)


 <質疑応答>

セミナー講師

茨城大学 工学部 情報工学科 教授  新納 浩幸 先生

【ご略歴】
 1985年 東京工業大学理学部情報科学科卒業。
 1987年 同大学大学院理工学研究科情報科学専攻修士課程修了。
   同年 富士ゼロックス、翌年松下電器を経て、1993年茨城大学工学部助手。
 2015年 同学部教授。現在に至る。

【ご専門】
 自然言語処理、機械学習、統計学

【主な著書】
 『 Chainer v2 による実践深層学習 』 オーム社
 『 ニューラルネットワーク自作入門 (翻訳)』 マイナビ出版
 『 Rで学ぶクラスタ解析 』 オーム社
 『 数理統計学の基礎 』 森北出版

セミナー受講料

【ライブ配信(見逃し視聴無し)1名47,300円(税込(消費税10%)、資料付)
 *1社2名以上同時申込の場合、1名につき36,300円

【ライブ配信(見逃し視聴有り)1名49,500円(税込(消費税10%)、資料付)
 *1社2名以上同時申込の場合、1名につき38,500円

 *学校法人割引;学生、教員のご参加は受講料50%割引。

*見逃し視聴有りをご希望の方は、お申込みの際、備考欄に【見逃し視聴希望】とご記入ください。

受講について

※Zoomを使用したオンラインセミナー受講の方は、下記内容をご確認の上、お申込み下さい。
 お手許のPCやタブレット等でも受講できるオンライン対応セミナーです。

配布資料・講師への質問等について

  • 配布資料はPDF等のデータで送付予定です。受取方法はメールでご案内致します。
    (開催1週前~前日までには送付致します)。

    ※準備の都合上、開催1営業日前の12:00までにお申し込みお願い致します。
    (土、日、祝日は営業日としてカウント致しません。)
  • 当日、可能な範囲で質疑応答も対応致します。
    (全ての質問にお答えできない可能性もございますので、予めご容赦ください。)
  • 本講座で使用する資料や配信動画は著作物であり、
    無断での録音・録画・複写・転載・配布・上映・販売等を禁止致します。

下記ご確認の上、お申込み下さい

  • PCもしくはタブレット・スマートフォンとネットワーク環境をご準備下さい。
  • ご受講にあたり、環境の確認をお願いしております(20Mbbs以上の回線をご用意下さい)。
    下記ご利用ツール別の、動作確認の上お申し込み下さい。
  • 開催が近くなりましたら、当日の流れ及び視聴用のURL等をメールにてご連絡致します。

Zoomを使用したオンラインセミナーとなります

  • ご受講にあたり、環境の確認をお願いしております。
    お手数ですが下記公式サイトからZoomが問題なく使えるかどうか、ご確認下さい。
    確認はこちら
    ※Skype/Teams/LINEなど別のミーティングアプリが起動していると、Zoomでカメラ・マイクが使えない事があります。お手数ですがこれらのツールはいったん閉じてお試し下さい。
  • Zoomアプリのインストール、Zoomへのサインアップをせずブラウザからの参加も可能です。
    ※一部のブラウザは音声(音声参加ができない)が聞こえない場合があります。
     必ずテストサイトからチェック下さい。
     対応ブラウザーについて(公式) ;
     「コンピューターのオーディオに参加」に対応してないものは音声が聞こえません。

申込み時に(見逃し視聴有り)を選択された方は、見逃し視聴が可能です

  • 開催5営業日以内に録画動画の配信を行います(一部、編集加工します)。
  • 視聴可能期間は配信開始から1週間です。視聴期間内は動画を何度でも再生可能です。
    尚、閲覧用のURLはメールにてご連絡致します。
    ※万一、見逃し視聴の提供ができなくなった場合、
    (見逃し視聴有り)の方の受講料は(見逃し視聴無し)の受講料に準じますので、ご了承下さい。
    こちらから問題なく視聴できるかご確認下さい(テスト視聴動画へ)パスワード「123456」

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:30

受講料

47,300円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、コンビニ払い

開催場所

全国

主催者

キーワード

機械学習・ディープラーニング   AI(人工知能)   情報技術

※セミナーに申し込むにはものづくりドットコム会員登録が必要です

開催日時


10:30

受講料

47,300円(税込)/人

※本文中に提示された主催者の割引は申込後に適用されます

※銀行振込、コンビニ払い

開催場所

全国

主催者

キーワード

機械学習・ディープラーニング   AI(人工知能)   情報技術

関連記事

もっと見る