データマイニングで使われるツール

inf52
 データマイニング
に使われるツール、特にビッグデータを用いたデータマイニングツールにはどのようなものがあるか、以下にまとめます。
 

1.スプレッドシート

 いわゆるエクセル(Microsoft Excel)です。コンピュータに詳しくないコンピュータの初心者にはとっつきやすくデータ分析にはよく使われます。しかし、数値の処理に正確さがかける、大きなデータの処理には向かないなどの理由からエキスパートは避ける傾向にあります。データ分析者が、最終的なデータをコンピュータに詳しくない解析依頼者に渡す場合のフォーマットとしてはよく使われます。 
 

2.汎用統計解析ソフト

 製薬業界ではSASが、社会科学領域ではSPSSが、工学領域ではMATLABが、数学領域ではMathematica が人気です。統計学全般的にRというオープンソースソフトウェアが人気になっています。データサイエンティストはRが使えることが必須と言われています。しかし、Rはメモリ使用量が大きく、計算速度が遅いことが問題となっています。これに対し、汎用インタプリタ言語のPythonに数理計算、統計計算用の関数群であるモジュールを追加することで、汎用統計解析が可能になってきています。また、最近ではRに代わりPythonも、Rより高速で、大容量メモリの使用が可能であるために使われるようになっています。
 

3.データベース

 市販ソフトではオラクルやDB2(IBM)、SQL Server(Microsoft)などが用いられますが、オープンソースソフトウェアでは、MySQLおよびPostgreSQLなどが用いられます。
 

4.NoSQLデータベース

 従来のデータベースで処理しきれないスケールのデータを通常ビッグデータと呼びます。それらのビッグデータを処理するための従来のSQLのスキームによらないデータベースはNoSQLと呼ばれます。産業界により提供されたものとして、GoogleのBigTable、アマゾンのAmazon DynamoDBなどがあります。オープンソースとしては、例えばMongoDB、 Redis、Apache HBase、Apache Cassandraなどがあります。
 

5.ビッグデータ処理ツール

 従来のデータベースで処理しきれないスケールのデータを、コンピュータクラスタ上に分散して保存するファイルシステムに分散ファイルシステムHDFSがあり、コンピュータクラスタ上に分散して処理するシステムに分散処理システムMapReduceがあります。HDFSとMapReduceを合わせたビッグデータ処理システムはHadoop(Apache Hadoop)という名前でオープンソースとして提供されています。さらに、複数のハードディスク上に分散して処理するMapReduceに対し、複数のメモリ上にデータを保存して処理するインメモリ型分散処理システのSpark(Apache Spark)があります。MapReduceは分散処理により大規模データ処理を可能にしているのに対し、Sparkはそれをインメモリで分散処理することで高速データ処理を可能にしています。
 

セミナー「バイオインフォマティクス2日間講座」

10:30 ~ 16:30 

[東京・大井町] きゅりあん 1日目:4階 第1グループ活動室 2日目:4階 第2特別講習室

78,840円

6.Linux

 これらのツールを駆使しデータ処理を可能にするOSとして、Linuxは非常に重要です。特にシェルと呼ばれるシステムを用いてツール通しのデータのやり取りをシームレスに処理でき、簡単な記述式のプログラムであるスクリプトを使用することで高速、自動化、大規模化が自在となるため、WindowsやMacOSXに比べてビッグデータ処理に向いています。
 
 ビッグデータ分析のためのスキルとしては、R、Python、SQL、Hadoop、Sparkなどが重要になってきます。
 

この記事の著者

石井 一夫

ゲノム科学、ビッグデータとクラウドコンピューティングが専門です

無料会員登録でさらにあなたに特化した情報を手に入れましょう。

①「データマイニング/ビッグデータ」の関連記事が掲載されたらメールでお知らせ

②専門家「石井 一夫」先生に記事内容について直接質問が可能

③他にも数々の特典があります。

すでに会員の方はこちらからログイン