バイオインフォマティクスとは?~おススメのプログラミング言語~

投稿日

バイオインフォマティクス

 

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

 

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

 

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

 

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、 生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

 

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

 

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

 

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

 

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

 

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

 

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

...

バイオインフォマティクス

 

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

 

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

 

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

 

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、 生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

 

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

 

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

 

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

 

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

 

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

 

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

 

バイオインフォマティクスでは、研究分野、目的に応じてコンパイラ型とインタープリタ型を使い分けています。様々な科学領域では、分子動力学の計算などを効率よく計算するために、コンパイラ型の FORTRAN や C などが使われているようです。また、ゲノム配列解析・統計解析などに関しては、文字列処理あるいは数値処理であるため、すぐに実行できる Python や R などのインタープリタ型がよく利用されています。この使い分けは明確ではなく、研究者が得意とする言語を利用するのが普通です。

 

バイオインフォマティクス分野で、使うことを目的として初めてプログラミング言語を学ぶならば、Python か R が有効で、両者は、データ解析を目的とした数値計算や視覚化などの機能を備えています。データを解析するためにプログラミング言語を学ぶ人にとって、これらは無駄のない仕様となっています。

 

 

   続きを読むには・・・


この記事の著者

井上 敦雄

中小企業のIT導入を全力で応援しています。IT導入の8割が失敗するといわれている中で、当社の「中小企業専門PMOサービス」を使っていただければ、成功率は100パーセントに近づきます。

中小企業のIT導入を全力で応援しています。IT導入の8割が失敗するといわれている中で、当社の「中小企業専門PMOサービス」を使っていただければ、成功率は1...


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
SOR理論 データ分析講座(その132)

◆ なぜ見える化しても成果が出ないのか、その解をSOR理論から探る  データを溜めて見える化したのに上手くいかない要因は色々考えられます。その中の一...

◆ なぜ見える化しても成果が出ないのか、その解をSOR理論から探る  データを溜めて見える化したのに上手くいかない要因は色々考えられます。その中の一...


データ活用の成果は金額換算で データ分析講座(その286)

  DX・AI・ビッグデータなど、データ活用にチャレンジする機会が増えてきました。ただし、目標設定が定性的過ぎて、単にそのためのシステム導...

  DX・AI・ビッグデータなど、データ活用にチャレンジする機会が増えてきました。ただし、目標設定が定性的過ぎて、単にそのためのシステム導...


スモールデータとビッグデータの違いとは

   ビッグデータの活用と声高に叫ばれています。無論、自動的にビッグデータが取れれば多いに越したことはありませんが、スモールデータでも十分...

   ビッグデータの活用と声高に叫ばれています。無論、自動的にビッグデータが取れれば多いに越したことはありませんが、スモールデータでも十分...


「情報マネジメント一般」の活用事例

もっと見る
既存コア技術強化のためのオープン・イノベーション:富士フイルムの例

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...

 2015年7月20日号の日経ビジネスに、富士フイルムの特集が掲載されました。富士フイルムは、既存コア技術強化のためにオープン・イノベーションを果敢に...


システムトラブル、誰に相談したら良いか

 最近は、以下のように情報システム開発にかかわるトラブルに悩まされる企業が急増しています。ところが、トラブルが起きた時に誰に相談したらいいかわからなくて困...

 最近は、以下のように情報システム開発にかかわるトラブルに悩まされる企業が急増しています。ところが、トラブルが起きた時に誰に相談したらいいかわからなくて困...


電子メール、簡潔過ぎると逆効果

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...

◆電子メール:多忙な人に確実な返信をもらうテクニック  皆様は仕事で電子メールを一日に何通受信しますか、企業の従業員数、所属部署、職務、職位などでも...