- 会員限定
- 2022/04/21 掲載
Python入門(後編)NumPy、Pandas、Matplotlibなどのデータ処理ライブラリ使い方
連載:G検定対策講座
前編はこちら(この記事は後編です)
機械学習とデータ処理に必須の外部ライブラリ
ここでは、外部ライブラリのうち、分析を行う前の「データ処理」の部分で最も頻繁に利用するものを紹介します。なお、機械学習におけるデータ処理の大切さについては、こちらの記事を参照してください。NumPy
NumPyは、多次元配列データを高速に演算することを得意とするライブラリです。ビッグデータを処理する上で演算速度は重要です。画像処理や機械学習の高度なアルゴリズムの多くは、仕様上、入力データをいったんNumPyの配列に変換し、それを引数として受け取ることが前提となっています。
Pandas
Pandasは表形式データの処理に特化したライブラリです。分析対象となるデータの多くは表形式データ(構造化データ)です。皆さんがよく使うExcel、CSV、SQL型データベースなどが典型例です。Pandasには表形式のデータを柔軟に処理するための機能が豊富にそろっています。以下は、その一例です。
- データの読み込み・書き出し
- 特定の条件を満たすデータの検索・抽出・置換
- データの結合や分割
- さまざまな統計処理
- 欠損値の判定と処理
Matplotlib
Matplotlibは、データを可視化するためのライブラリです。分析プロセスの中で、データを効果的に「見える化」することによって、データの特徴、傾向、問題点などを把握でき、分析手法を的確に選べることができます。ヒストグラム、折れ線グラフ、円グラフ、散布図など多様な表現が可能で、書式設定に対するカスタマイズ性も優れています。
機械学習の実装と直接関わるライブラリ
上記以外に、機械学習を実装するときに使うPythonのオープンソースのライブラリもあります。代表的なものがscikit-learnです。
scikit-learnは開発が活発に行われているため、改善が高速に進み、サンプルコードやサンプルデータがウェブ上で数多く見つかります。そのため、scikit-learnをインストールすれば、すぐに機械学習を体験することができます。さまざまな種類の機械学習の手法が存在する中で、どのアルゴリズムも似たような記述で利用可能であることも、scikit-learnの大きなメリットといえます。
機械学習の一種であるディープラーニングに関しても、Pythonのライブラリやフレームワークが充実しています。有名なものとして、TensorFlowやそのラッパーであるKeras、PyTorch、Chainer、Caffeなどが挙げられます。
外部ライブラリの使い方
前編でもお伝えしたように、ライブラリを活用することで、Pythonのシンプルさを享受しながら裏ではデータを高速に処理できます。Pythonはスクリプト言語であるため、コンパイル言語に比べて処理速度が劣ります。しかし、Pythonのライブラリの多くはC言語やFortranなどの高速なコンパイル言語で記述されていますので、データ処理速度の心配は無用です。
たとえば、数値演算は「ネイティブ」のPythonだけでもできますが、高速な言語で記述されたライブラリ(たとえばNumPy)を活用すると計算が格段に速くなります。ライブラリ利用者はPythonのコードの中でライブラリを呼び出すだけなので、C言語を意識する必要はありません。
ライブラリのimport
ライブラリを使うためには、import文でメインプログラム中に呼び込みます。何通りかの書き方があります。典型的なパターンは以下です。
コード中で頻繁に書くライブラリの名称は、importする際にエイリアス(略名)を宣言すると便利です。たとえば、次はNumPyをエイリアス「np」としてimportする例です。略名は慣習に従うことが多いです。
以降では、前編で紹介した「Jupyter Notebook」に実装したコード例を交えて、NumPy、Pandas、Matplotlibのそれぞれの用途例を示します。
【次ページ】PandasとMatplotlibの使い方
関連コンテンツ
PR
PR
PR