サインアップ

ログイン

パスワードをお忘れですか

パスワードを忘れましたか? メールアドレスを入力してください。 リンクを受け取り、メールで新しいパスワードを作成します。

質問するにはログインする必要があります

Pythonのライブラリを使う【Pandas1】

みなさんこんにちは
前回に引き続いてPythonの機械学習でよく使うPandasについて
実際に何ができるのかを試していきます。

【ファイルの準備】

・格納用のフォルダを作成する
ドキュメントフォルダ内に適当な名称でフォルダを作成します。

 

・ファイルをダウンロードする
コチラ
からダウンロードします(要ユーザー登録)
データにダウンロード用のファイルがありますが3種ともにダウンロードをします。
ダウンロードしたファイルは作成したフォルダ内に格納します。

【jupyterを起動する

Anacondaからjupyternoteを起動します。
すると普段使っているブラウザが立ち上がりますがjupyterはブラウザから
Pythonを使うことが可能なツールとなっていて非常に便利です。
最初の一覧に「Documents」という名称がのフォルダがありますので開いたら
作成したフォルダに移ります。
ここまででけいたら画面右上の「New」のボタンを押してPython3を選択しましょう。

 

【Pandasを使ってみる】

・Pandasを使う前にやること
jupyterでPandasを使うには必ず以下のコードを実行します。

import pandas as pd

as pdは略称という意味で使用している個所になります。
こちらを入れたのちにshift+enterキーで実行します。(In [1])となっていれば問題ありません。

 

・ダウンロードしたファイルを読込む
ダウンロードしたファイルをjupyterで読込しましょう。
読込む際は以下のように書いてみましょう

areX = pd.read_csv(“train.csv”)

上記のコードを実行することで読込することができました、実際に色々試してみます。

 

・ファイルのヘッダーがどうなっているか調べる
areXという変数にダウンロードしたCSVファイルが入っています。
ヘッダー部分がどうなっているか確認する場合は以下のようにします。

areX.head()

()内をそのままにするとヘッダーを含めた最初の6行ほどが表示されたかと思います。

 

・ファイル内の行と列数を確認する。
ファイルの全体の行数と列数を調べるときには下記のコードを実行しましょう。

areX.shape

 

・行のデータ型がどうなっているか調べる
分析する上でデータの家kたは重要です。
小数点を含む数字なのか整数なのか等を確認してみましょう。

areX
.dtypes()

 

・全体の統計量を表示する
各行のデータの個数、中央値、平均値等を一覧表示してくれる便利なコードです

areX.describe()

 

・行方向で重複行を削除する
重複している行がある場合にその行を削除します。

df.drop_duplicates()

 

・特定のインデックスを抽出する方法
何かの条件に合致するもののみ抽出してみましょう

areX.loc(100)


・もっと細かく抽出したい場合
今回は行数と列数を指定して抽出してみます。

areX.iloc[[1,2,4],[0,2]]

 

・条件を指定して抽出する
今回はカロリーが450以上のもののみ抽出してみます。

areX[areX[‘kcal’] > 450]

・読込んだデータのある行の中にどんなデータが入っているのか重複を除外して表示する
異常な値がはいっていないか確認してみましょう。

areX[‘remarks’].unique()

 

いったんこちらで終了します。
どのような動作をするのかをマークダウンで作成しておくと後ほど見返すときに便利なので
jupyterで保存してみてください。

次回もpandasでよくつかうコードをご紹介してまいります。

関連記事

コメントを残す