みなさんこんにちは
前回に引き続いてPythonの機械学習でよく使うPandasについて
実際に何ができるのかを試していきます。
【ファイルの準備】
・格納用のフォルダを作成する
ドキュメントフォルダ内に適当な名称でフォルダを作成します。
・ファイルをダウンロードする
コチラからダウンロードします(要ユーザー登録)
データにダウンロード用のファイルがありますが3種ともにダウンロードをします。
ダウンロードしたファイルは作成したフォルダ内に格納します。
【jupyterを起動する】
Anacondaからjupyternoteを起動します。
すると普段使っているブラウザが立ち上がりますがjupyterはブラウザから
Pythonを使うことが可能なツールとなっていて非常に便利です。
最初の一覧に「Documents」という名称がのフォルダがありますので開いたら
作成したフォルダに移ります。
ここまででけいたら画面右上の「New」のボタンを押してPython3を選択しましょう。
【Pandasを使ってみる】
・Pandasを使う前にやること
jupyterでPandasを使うには必ず以下のコードを実行します。
import pandas as pd
as pdは略称という意味で使用している個所になります。
こちらを入れたのちにshift+enterキーで実行します。(In [1])となっていれば問題ありません。
・ダウンロードしたファイルを読込む
ダウンロードしたファイルをjupyterで読込しましょう。
読込む際は以下のように書いてみましょう
areX = pd.read_csv(“train.csv”)
上記のコードを実行することで読込することができました、実際に色々試してみます。
・ファイルのヘッダーがどうなっているか調べる
areXという変数にダウンロードしたCSVファイルが入っています。
ヘッダー部分がどうなっているか確認する場合は以下のようにします。
areX.head()
()内をそのままにするとヘッダーを含めた最初の6行ほどが表示されたかと思います。
・ファイル内の行と列数を確認する。
ファイルの全体の行数と列数を調べるときには下記のコードを実行しましょう。
areX.shape
・行のデータ型がどうなっているか調べる
分析する上でデータの家kたは重要です。
小数点を含む数字なのか整数なのか等を確認してみましょう。
areX.dtypes()
・全体の統計量を表示する
各行のデータの個数、中央値、平均値等を一覧表示してくれる便利なコードです
areX.describe()
・行方向で重複行を削除する
重複している行がある場合にその行を削除します。
df.drop_duplicates()
・特定のインデックスを抽出する方法
何かの条件に合致するもののみ抽出してみましょう
areX.loc(100)
・もっと細かく抽出したい場合
今回は行数と列数を指定して抽出してみます。
areX.iloc[[1,2,4],[0,2]]
・条件を指定して抽出する
今回はカロリーが450以上のもののみ抽出してみます。
areX[areX[‘kcal’] > 450]
・読込んだデータのある行の中にどんなデータが入っているのか重複を除外して表示する
異常な値がはいっていないか確認してみましょう。
areX[‘remarks’].unique()
いったんこちらで終了します。
どのような動作をするのかをマークダウンで作成しておくと後ほど見返すときに便利なので
jupyterで保存してみてください。
次回もpandasでよくつかうコードをご紹介してまいります。
コメントを残す