データマイニングで使われるツール

2015-12-24

　データマイニングに使われるツール、特にビッグデータを用いたデータマイニングツールにはどのようなものがあるか、以下にまとめます。

1．スプレッドシート

　いわゆるエクセル（Microsoft Excel）です。コンピュータに詳しくないコンピュータの初心者にはとっつきやすくデータ分析にはよく使われます。しかし、数値の処理に正確さがかける、大きなデータの処理には向かないなどの理由からエキスパートは避ける傾向にあります。データ分析者が、最終的なデータをコンピュータに詳しくない解析依頼者に渡す場合のフォーマットとしてはよく使われます。　

2．汎用統計解析ソフト

　製薬業界ではSASが、社会科学領域ではSPSSが、工学領域ではMATLABが、数学領域ではMathematica が人気です。統計学全般的にRというオープンソースソフトウェアが人気になっています。データサイエンティストはRが使えることが必須と言われています。しかし、Rはメモリ使用量が大きく、計算速度が遅いことが問題となっています。これに対し、汎用インタプリタ言語のPythonに数理計算、統計計算用の関数群であるモジュールを追加することで、汎用統計解析が可能になってきています。また、最近ではRに代わりPythonも、Rより高速で、大容量メモリの使用が可能であるために使われるようになっています。

3．データベース

　市販ソフトではオラクルやDB2(IBM)、SQL Server（Microsoft）などが用いられますが、オープンソースソフトウェアでは、MySQLおよびPostgreSQLなどが用いられます。

4．NoSQLデータベース

　従来のデータベースで処理しきれないスケールのデータを通常ビッグデータと呼びます。それらのビッグデータを処理するための従来のSQLのスキームによらないデータベースはNoSQLと呼ばれます。産業界により提供されたものとして、GoogleのBigTable、アマゾンのAmazon DynamoDBなどがあります。オープンソースとしては、例えばMongoDB、 Redis、Apache HBase、Apache Cassandraなどがあります。

5．ビッグデータ処理ツール

　従来のデータベースで処理しきれないスケールのデータを、コンピュータクラスタ上に分散して保存するファイルシステムに分散ファイルシステムHDFSがあり、コンピュータクラスタ上に分散して処理するシステムに分散処理システムMapReduceがあります。HDFSとMapReduceを合わせたビッグデータ処理システムはHadoop（Apache Hadoop）という名前でオープンソースとして提供されています。さらに、複数のハードディスク上に分散して処理するMapReduceに対し、複数のメモリ上にデータを保存して処理するインメモリ型分散処理システのSpark（Apache Spark）があります。MapReduce...

は分散処理により大規模データ処理を可能にしているのに対し、Sparkはそれをインメモリで分散処理することで高速データ処理を可能にしています。

6．Linux

　これらのツールを駆使しデータ処理を可能にするOSとして、Linuxは非常に重要です。特にシェルと呼ばれるシステムを用いてツール通しのデータのやり取りをシームレスに処理でき、簡単な記述式のプログラムであるスクリプトを使用することで高速、自動化、大規模化が自在となるため、WindowsやMacOSXに比べてビッグデータ処理に向いています。

　ビッグデータ分析のためのスキルとしては、R、Python、SQL、Hadoop、Sparkなどが重要になってきます。

↓　続きを読むには・・・

新規会員登録

会員の方はログイン

この記事の著者

石井一夫

公立諏訪東京理科大学

ゲノム科学、ビッグデータとクラウドコンピューティングが専門です

データマイニングで使われるツール

1．スプレッドシート

2．汎用統計解析ソフト

3．データベース

4．NoSQLデータベース

5．ビッグデータ処理ツール

6．Linux

この記事の著者

「データマイニング／ビッグデータ」の他のキーワード解説記事

ビッグデータ処理による機械学習・データマイニング （その1）

ビッグデータとデータマイニング

ビッグデータ処理による機械学習・データマイニング （その2）

ビッグデータ処理による機械学習・データマイニング（その1）

ビッグデータ処理による機械学習・データマイニング（その2）