ケモインフォマティクスにおけるデータ解析手法とそのコツ・応用事例
初心者、若手研究者のための入門講座 データ解析の基本プロセスが学べる!データセット作成や、ハイパーパラメータ最適化など、解析をスムーズに行うためのコツ、事例
セミナープログラム
【9:45~11:15】
【第1部】 記述子の種類と各手法の活用法
熊本大学 大学院 先端科学研究部 准教授 杉本学 氏
【講座主旨】
ケモインフォマティクスの重要なタスクの一つは、化合物を分類するモデルを構築したり、その性能を予測する機械学習モデルを作成することである。これらによってこれまで合成されていなかった新規化合物あるいは既知化合物の中から有望な化合物を計算機上で探索する(=バーチャルスクリーニングを行う)ことが可能となる。分類モデルや定量的な性能予測モデル(回帰モデルと呼ばれる)を構築するためには、目的とする性能に関する参照データのみならず、一つ一つの物質を数値的に記述する「記述子」を準備する必要がある。本講ではケモインフォマティクス研究で用いられている記述子を紹介するとともに、その特徴や用途について解説する。また、目的に応じて記述子を作成ないしは考案するための戦略について議論する。その一例として、演者が考案した電子状態インフォマティクス記述子について紹介する。また、記述子の実際の応用例を紹介し、記述子の用途・特徴などを紹介する。最後に今後の展望について議論したい。
【講座内容】
1.記述子とは何か?
2.記述子とデータ数の関係
3.代表的な記述子とその特徴
4.記述子を作る・考案する
5.電子状態インフォマティクス記述子
6.記述子の応用事例
7.今後の展望
【質疑応答】
【11:30~13:00】
【第2部】 データ解析をスムーズに行うためのデータセット作成の留意点
摂南大学 薬学部 准教授 河合健太郎 氏
【講座主旨】
データセットはデータ解析の基盤となるものである。当然のことであるが、いくら優れた解析方法があったとしても、データセットが無ければ何も出来ない。また、解析の目的に適合したデータが豊富にあったとしても、そのデータに不備がないことが必要となる。データに不備がなくても、化学構造式のように取り扱いに注意が必要なデータの場合、最大のパフォーマンスを得るためには適切な化学構造情報の処理が必要となる。そこで本稿では、化学構造情報の前処理を含めた「データ解析をスムーズに行うためのデータセット作成」における留意点について述べたい。
【講座内容】
1.データ解析の目的を明確にする
2.どのような実験データを採用するか
3.化学構造を含むデータセット作成の留意点
3.1 化学構造データの取り扱い
3.2 化学構造のデータ形式
3.3 化学構造データの前処理(クリーニング)
3.4 構造データに対するその他の前処理
4. 測定値(活性値など)の収集における留意点
4.1 一般的な留意点
4.2 公共のデータベースから活性値を収集する際の留意点
4.3 その他の留意点
【質疑応答】
【14:00~15:30】
【第3部】 ケモインフォマティクスにおけるデータ解析手法と活用事例
滋賀大学 データサイエンス・AIイノベーション研究推進センター 准教授 江崎剛史 氏
【講座主旨】
研究開発の効率化を目指し、ケモインフォマティクスの手法を使って化合物の特性を予測するモデルが注目されており、機械学習をはじめとした人工知能の貢献が期待されている。ライブラリに保管している化合物の構造データだけから、化合物の材料、もしくは薬としての特性を予測することができれば、実験規模を縮小しつつ有効な化合物を選び出すことができるため、研究開発にかかる費用や時間の短縮が見込まれる。本講演では、機械学習を用いて化合物特性を予測する先端研究とともに、特性の予測を行うための注意点について紹介したい。
【講座内容】
1.ケモインフォマティクスの概要
2.特性を予測するとは
3.課題の設定
4.データの前処理
5.モデルの選択
6.精度の評価
7.活用事例
8.インフォマティクスを専門とする研究者の役割
【質疑応答】
【15:45~17:15】
【第4部】 ハイパーパラメータの最適化の事例
豊橋技術科学大学 情報メディア基盤センター 計算科学研究室 教授 後藤仁志 氏
【講座内容】
1.ハイパーパラメータの最適化の概要
1.1 ハイパーパラメータの組み合わせの探索アルゴリズム
1.2 MLモデルの学習と評価
1.3 MLモデルの選択
1.4 ハイパーパラメータの種類
(1)MLモデル構造のハイパーパラメータ
(2)学習制御のハイパーパラメータ
(3)最適化技法のハイパーパラメータ
2.研究事例におけるハイパーパラメータの調整
2.1 分子活性予測
2.2 量子化学計算の運動エネルギー予測
3.ハイパーパラメータの自動最適化
【質疑応答】
セミナー講師
【第1部】 杉本 学 先生 熊本大学 大学院 先端科学研究部 准教授
【第2部】 河合 健太郎 先生 摂南大学 薬学部 准教授
【第3部】 江崎 剛史 先生 滋賀大学 データサイエンス・AIイノベーション研究推進センター 准教授
【第4部】 後藤 仁志 先生 豊橋技術科学大学 情報メディア基盤センター 計算科学研究室 教授 </strong
セミナー受講料
聴講料 1名につき66,000円(消費税込/資料付き)
〔1社2名以上同時申込の場合のみ1名につき60,500円〕
受講について
- 本講座はZoomを利用したLive配信セミナーです。セミナー会場での受講はできません。
- 下記リンクから視聴環境を確認の上、お申し込みください。
→ https://zoom.us/test - 開催日が近くなりましたら、視聴用のURLとパスワードをメールにてご連絡申し上げます。
セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。 - Zoomクライアントは最新版にアップデートして使用してください。
Webブラウザから視聴する場合は、Google Chrome、Firefox、Microsoft Edgeをご利用ください。 - パソコンの他にタブレット、スマートフォンでも視聴できます。
- セミナー資料はお申込み時にお知らせいただいた住所へお送りいたします。
お申込みが直前の場合には、開催日までに資料の到着が間に合わないことがあります。ご了承ください。 - 当日は講師への質問をすることができます。可能な範囲で個別質問にも対応いたします。
- 本講座で使用される資料や配信動画は著作物であり、
録音・録画・複写・転載・配布・上映・販売等を禁止いたします。 - 本講座はお申し込みいただいた方のみ受講いただけます。
複数端末から同時に視聴することや複数人での視聴は禁止いたします。 - Zoomのグループにパスワードを設定しています。
部外者の参加を防ぐため、パスワードを外部に漏洩しないでください。
万が一部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。
受講料
66,000円(税込)/人





