Pythonの日付データ型の選択

はじめに

Pythonで時系列データを扱う際、日付データ型の選択と変換に試行錯誤が必要だったため、datetime64[ns]型を中心に学んだことを記録しておく。

扱うデータについて

https://www.data.jma.go.jp/risk/obsdl
こちらの気象庁オープンデータのHPから基本的な気象情報を時系列データとして取得する。今回は2019/01/01-2019/01/31のデータを使用する。

#20190101-20190131の気象データを読み込み
weather_df = pd.read_csv("../data/weather_data/京都気象データ20190101_20190131.csv",encoding="shift-jis")
weather_df = weather_df.rename({'年月日':'date'},axis=1)
#年月日データ分析に最も適切なdatatime[ns]型に変換
weather_df['date'] = pd.to_datetime(weather_df['date'], format='%Y/%m/%d') #datatime[ns]型に変換

日付データを扱う中で直面した課題

・日付データのフォーマットが混在していた。
・日付を表す列名が混在していた。
・文責に最適な形式を選ぶ必要性に気づいた。

datetime64[ns]型は操作が簡単で、集計で威力を発揮するが、それぞれの読み込むDataFrameのdate列のフォーマットを揃える初期処理が必要。

結論と今後の展望

気象データと消費データを日付をキーとして統合し、天候が個人の消費傾向に及ぼす影響について研究したいと思っている。卒論提出締め切りまで残り約1カ月。どこまでできるだろうか。できるところまで取り組もうと思う。

コメント

タイトルとURLをコピーしました