機械学習を用いた網羅的かつ効率的な動向調査の実施法!  
システムの土台となるテキストマイニングの基本と
応用のポイントとは?


pythonを用いた具体的な文書分類・解析の事例

セミナー講師

【第1部】桃山学院大学 非常勤講師 竹岡 志朗 氏
【第2部】 九州大学 システム情報科学研究院 特任助教 福田 悟志 氏
【第3部】 (株)ユポ・コーポレーション 市場開発部 次長 西尾 潤 氏

セミナー受講料

1名につき55,000円(消費税抜き/昼食・資料付き)
〔1社2名以上同時申込の場合1名につき50,000円〕

セミナープログラム

【10:00~12:00】  
【第1部】 テキストマイニングの基礎と近年の機械学習技術の応用
桃山学院大学 竹岡 志朗 氏
【講座主旨】
IT技術の進歩の中で、近年ではIoTやビッグデータ、AIなどが注目され、様々な実践が行われている。自然言語処理、その一分野であるテキストマイニングもそのひとつである。現在主流のテキストマイニングでは形態素解析とその結果に基づく計量・共起分析が中心的な手法である。しかし、機械学習技術の進歩の中でSkip-gramなどの手法が開発され、それらを活用した分散表現テキストマイニングが実用化され始めている。これの特徴は、これまでは難しかった意味に基づく分析を可能にする点にある。この講座では、講師の研究事例を用いながら、テキストマイニングにおける計量的手法とその弱点を概観し、これらを克服する可能性のある分散表現テキストマイニングについて見ていく。機械学習技術を用いたテキストマイニングは、未完成の物であり、現在も新しい技術が次々に発表されている。この講座は、参加者が新しい技術を取り入れる際の足掛かりとなるものを目指している。
【講座内容】
1.テキストマイニングについて
 1.1 テキストマイニングとは
 1.2 テキスト分析の手順
2.計量テキスト分析の例
 2.1 計量分析
 2.2 共起分析
3.計量テキスト分析の弱点
4.機械学習技術を用いた分散表現テキストマイニング
 4.1 コサイン類似度を用いた分析
5.機械学習技術を複合的に用いた分析例
 5.1 相関分析との併用
6.分散表現テキストマイニングの背景技術
 6.1 skip-gramについて
7.分散表現テキストマイニングの限界

【質疑応答】


【12:45~14:45】

【第2部】 機械学習技術を用いた技術文書からの動向情報の抽出およびその可視化
九州大学 福田 悟志 氏
【講座主旨】
産業と関連性が高い企業や研究者にとって特許や論文などの技術文書の分析をすることは,特定分野の動向を知るうえで重要である.また,このような動向情報は,その分野への新規参入やその技術への投資の選定などを判断するうえで有用な材料となる.しかしながら,限られた時間の中で特定分野に関する情報を網羅的に収集し,分析することは容易ではない.こうした状況を鑑み,機械学習を用いて技術文書から特定分野の技術動向を効率的に把握するための研究や取り組みが数多く行われている.本発表では,技術文書を対象とした技術動向の分析・可視化を行うためのシステムやその言語処理技術,研究プロジェクトなどについて述べる.
【講座内容】
1.技術動向分析に対する概観
 ・技術動向分析の目的
 ・技術動向分析の流れ
 ・技術動向分析に関する研究プロジェクト
2.技術文書からの動向情報の抽出に関する機械学習技術
 ・言語処理技術(構造解析,固有表現抽出など)
 ・機械学習に用いる入力データの作成
3.技術動向の可視化
 ・技術動向の可視化に対するモチベーション
 ・可視化ツール・システム
 ・可視化までの流れ

【質疑応答】


【15:00~17:00】
【第3部】pythonを使った特許文書の教師なし学習による可視化と教師あり学習による分類・スクリーニング
(株)ユポ・コーポレーション 西尾 潤 氏
【講座主旨】
Python(Anaconda/Google Colaboratory)上の機械学習フレームワーク(Scikit-learn/Tensorflow-Keras)を使用し、自ら特許文書を解析するコツを紹介します。
まず特許文書を下処理して文法に従って切り出し、テキストマイニングの手法でキーワードを抽出して可視化する方法を紹介します。
次に、機械学習で取り扱い可能なように特許文書を数値化する「文書ベクトル化」方法を解説します。
さらに、得られた文書ベクトルを用いて教師なし学習による可視化と文書分類する方法、教師あり学習によるニューラルネットワークの手法で文書分類する方法を紹介します。。
【講座内容】
1.形態素解析とキーワード可視化
 1.1 形態素解析器の導入と使用
 1.2 TermExtractを用いたキーワード抽出と可視化
2.文書ベクトル化
 2.1 単語ID、BoWおよびTF-IDF
 2.2 分散表現(word2vec、Doc2Vec)
3.教師なし学習による可視化
 3.1 次元圧縮
 3.2 クラスタリング(k-means法)
 3.3 自己組織化マップ(SOM)
4.ニューラルネットワークを用いた教師あり学習
 4.1 MNISTチュートリアルの解説
 4.2 1次元CNNによる2値分類
 4.3 確率出力

【質疑応答】