バイオインフォマティクスとは？～おススメのプログラミング言語～

投稿日 2022-05-20

バイオインフォマティクス

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

...

バイオインフォマティクス

1. なぜバイオインフォマティクスが必要か

2.バイオインフォマティクスとは

3. バイオインフォマティクスで何が可能となるのか

4.バイオインフォマティクスとプログラミング言語

バイオインフォマティクスでは、研究分野、目的に応じてコンパイラ型とインタープリタ型を使い分けています。様々な科学領域では、分子動力学の計算などを効率よく計算するために、コンパイラ型の FORTRAN や C などが使われているようです。また、ゲノム配列解析・統計解析などに関しては、文字列処理あるいは数値処理であるため、すぐに実行できる Python や R などのインタープリタ型がよく利用されています。この使い分けは明確ではなく、研究者が得意とする言語を利用するのが普通です。

バイオインフォマティクス分野で、使うことを目的として初めてプログラミング言語を学ぶならば、Python か R が有効で、両者は、データ解析を目的とした数値計算や視覚化などの機能を備えています。データを解析するためにプログラミング言語を学ぶ人にとって、これらは無駄のない仕様となっています。

　続きを読むには・・・

新規会員登録