バイオインフォマティクスとは?~おススメのプログラミング言語~

投稿日

バイオインフォマティクス

 

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

 

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

 

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

 

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、 生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

 

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

 

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

 

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

 

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

 

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

 

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

...

バイオインフォマティクス

 

薬剤開発、iPS細胞などの品質管理、新規生物種の発見、または既知生物種の再分類など、ゲノムあるいは遺伝情報の研究で、これらのデータを取り扱うことに長けているバイオインフォマティシャンの絶対数が世界的に足りず、データの出力に解析が追いついていないようです。今回は、このような背景を踏まえて、バイオインフォマティクスの概要を解説します。

 

1. なぜバイオインフォマティクスが必要か

科学が進歩してコンピューター技術も進化し、生物分子データの分析もコンピューター技術で便利になり、ヒト一人のゲノム解析にかかる時間は、初期の13年から今では1日に短縮されました。しかし、サンプルのシークエンシング後は膨大なデータが残り、例えばヒト一人のゲノムは平均して120GB相当のデータに変換されます。従って、120GB相当のデータ分析にはバイオインフォマティクス等の分析ツールやソフトウェアが必要となるのです。

 

今やバイオインフォマティクス解析に必要だった物は、実験や解析ではなく、コンピューターの知識であり、データベースにアクセスするためのインターネット環境です。事実、今日の生命科学の分野では、その研究過程にバイオインフォマティクスの関与が不可欠と言われています。

 

2.バイオインフォマティクスとは

バイオインフォマティクスは、生物学と情報処理が融合した新しい学問分野のことです。生命情報学と訳されることが多く、生物と情報というキーワードが入っていることから、 生物データをコンピューターにより解析する研究を総称して使われることが多いようです。

 

その特徴はコンピューターを使って生命を解析するということで、例えばゲノムでは、ゲノムというDNAの中にある情報をシークエンサで読み取り、その後コンピューターを使って解析をして真理に迫って行くというのがバイオインフォマティックスの研究です。

 

バイオインフォマティクスは、膨大な生命科学研究のデータベースから、コンピューターにより、効率的に有用なデータを導き出し、創薬や医療に役立てることを目的としています。研究者が利用している米国 National Center for Biotechnology Information の DNA 塩基配列データベースは、塩基配列だけでも6100万以上が登録されております。新しいタンパクを発見した場合、バイオインフォマティクス解析で National Center for Biotechnology Informationにより、その生理機能の予測や立体構造解析情報を短い期間で得ることが出来ます。

 

3. バイオインフォマティクスで何が可能となるのか

バイオインフォマティクスの用途は、一塩基多型の捜索などがあり、その識別は病気の遺伝的要素の発見を目的として行われます。1945年にフレドリック・サンガーがインスリンのアミノ酸配列を発見し、その情報が一般に利用可能になった時よりコンピューターは分子生物学において必要不可欠な存在となりました。革新的な技術の進歩により、今や複数の生体分子配列を手動で比較する事は非現実的です。

 

4.バイオインフォマティクスとプログラミング言語

様々な目的や用途に合わせて、プログラミング言語が作られてきたためプログラミング言語は数百種類あると言われています。高水準のプログラミング言語として、初期にはFORTRAN、COBOL、ALGOL などがありました。これらの言語設計の概念がのちに多くのプログラミング言語に影響を与えました。

 

プログラミング言語は、コンパイラ型とインタープリタ型に分けることができます。コンパイラ型は、プログラムコードを書いてからそれが動くようになるまでには、コンパイル作業を行う必要があります。コンパイラ型は、機械語に翻訳されるため速度が速く、様々な機能を実現できます。このようなメリットがあるのですが、コード化が難しく制約も多くあります。なお、コンパイラ型言語には、Java、FORTRAN などがあります。

 

これに対して、インタープリタ型はコンパイルを必要としないプログラミング言語で、コンパイル型とは対照的に、コード化が簡単で、初心者でも学びやすいでしょう。それでも、速度は遅くて実装できない機能があります。代表的な言語には、Python、Perl、Ruby や R などがあります。

 

バイオインフォマティクスでは、研究分野、目的に応じてコンパイラ型とインタープリタ型を使い分けています。様々な科学領域では、分子動力学の計算などを効率よく計算するために、コンパイラ型の FORTRAN や C などが使われているようです。また、ゲノム配列解析・統計解析などに関しては、文字列処理あるいは数値処理であるため、すぐに実行できる Python や R などのインタープリタ型がよく利用されています。この使い分けは明確ではなく、研究者が得意とする言語を利用するのが普通です。

 

バイオインフォマティクス分野で、使うことを目的として初めてプログラミング言語を学ぶならば、Python か R が有効で、両者は、データ解析を目的とした数値計算や視覚化などの機能を備えています。データを解析するためにプログラミング言語を学ぶ人にとって、これらは無駄のない仕様となっています。

 

 

   続きを読むには・・・


この記事の著者

井上 敦雄

中小企業のIT導入を全力で応援しています。IT導入の8割が失敗するといわれている中で、当社の「中小企業専門PMOサービス」を使っていただければ、成功率は100パーセントに近づきます。

中小企業のIT導入を全力で応援しています。IT導入の8割が失敗するといわれている中で、当社の「中小企業専門PMOサービス」を使っていただければ、成功率は1...


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
PPDACサイクルとは データ分析講座(その124)

◆ 小さくデータサイエンスを始めるならPPDACサイクル  データとドメイン(営業・マーケティング・生産・経営などの現場)を結びつけ、データサイエン...

◆ 小さくデータサイエンスを始めるならPPDACサイクル  データとドメイン(営業・マーケティング・生産・経営などの現場)を結びつけ、データサイエン...


Windows11、注目されているTPMとは

   Windows11のリリースに合わせて、にわかに、「TPM」「TPM 2.0」というキーワードが注目されていますが、次のような疑問が...

   Windows11のリリースに合わせて、にわかに、「TPM」「TPM 2.0」というキーワードが注目されていますが、次のような疑問が...


自動車の制御系セキュリティ 制御システム(その11)

    【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3....

    【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3....


「情報マネジメント一般」の活用事例

もっと見る
‐販路開拓に関する問題事例‐ 製品・技術開発力強化策の事例(その19)

 前回の事例その18に続いて解説します。多額の資金と労力を費やして開発した知的財産をどのように活用して販路開拓に結びつけるのか、大変重要な問題ですが、販売...

 前回の事例その18に続いて解説します。多額の資金と労力を費やして開発した知的財産をどのように活用して販路開拓に結びつけるのか、大変重要な問題ですが、販売...


‐情報収集と開発活動、営業の役割‐  製品・技術開発力強化策の事例(その12)

   前回の事例その11に続いて解説します。製品開発は完了したがどのように売れば良いのか、ベンチャ-ビジネスの相談や異業種交流の会合では特に売り方に関する...

   前回の事例その11に続いて解説します。製品開発は完了したがどのように売れば良いのか、ベンチャ-ビジネスの相談や異業種交流の会合では特に売り方に関する...


Web上で試作受注するツールを成功させるポイントとは

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...

        今回は、「Web上で試作受注するツール」を成功させるポイントについて解説します。次の2点がポイントで、この2つを「最優先」に考える必...