データサイエンスの学習としてデータ分析のツールとしてPythonを学びはじめ、基本的なライブラリの活用を理解した方、では実際の現場でPythonを活用したデータ分析ってどうやって行われるの?というのが気になりますよね。
本記事では、Pythonの基本を勉強済の方向けに、実践に則した形式でPythonを活用したデータ分析演習を行うステップを紹介します。
Pythonを学び始めたものの…実際にどう使われるの?
既に現場でデータの取り扱いをしており、必要に応じてデータ分析やPythonを学び始めた方であれば問題ないかと思いますが、データ分析やPythonがこれから必要そう、または就職や転職に有利そう、という理由で学び始めた方も多いのではないでしょうか。
大丈夫、この悩みはご自身が正しくデータサイエンスの学習ができている証拠です。
データサイエンスの世界で統計学や、Pythonなどのプログラミングはあくまでツール(手段)であって、ツールをいくら豪華にしたからといって重要なのはデータ分析で果たしたい目的を達成できるかです。
統計学やPythonなどのツール(手段)を充実させながら目的、つまりデータ分析で実際の問題を解決することを学ぶのはデータサイエンスに限らず力を伸ばす上で重要な考え方です。
実践形式でPythonデータ分析の演習を行うオススメ本はこちら!
Python実践データ分析100本ノック
「Python実践データ分析100本ノック」はPython実践データ分析の名の通り、Pythonを実践形式でデータ分析するためのトレーニング本です。
本著はリアルなデータ分析として、データ整形(前処理)をかなり重要視しており、100本ノックのうち半分以上、データの揺れ補正、欠損処理、データ分析のための可視化などデータ整形処理を徹底的に行います。
その背景にあるのは、データ整形(前処理)こそがデータ分析のリアルだというのが本著の考え方です。実際、いわゆるデータ分析にかかわらず仕事でデータを見たことがある方なら全員感じていると思いますが、現場のデータはとても汚いです。
- 名前のフリガナ記載がバラバラ
- 日付の表示形式がバラバラ
- 入っているべきデータに欠損値がある
上記のようなことは誰にも思いあたることが多いのではないでしょうか。
何回も、何回も繰り返すことによって現場で通用するデータ分析力が身に付くんだな、と感じました。
一方で前述の通り、本著でもデータ整形をすること自体がデータ分析のゴールではありませんのでご安心ください。
整形したデータを用いて、クラスタリングや決定木などのscikit-learnを活用した機械学習から、最適化問題を処理するためのNetworkX、pulp、ortoolpy、または最終的には発展編として画像処理や言語処理まで、幅広く学ぶことができます。
様々なツールを学んで、現場であるあるの課題をデータ分析で解決できるようになる本著はデータ分析学習、Python学習の中でぜひ皆さんに取り組んでいただきたい一冊となります。
Python実践機会学習システム100本ノック
「Python実践データ分析100本ノック」は、「Python実践データ分析100本ノック」の続編となる、Pyhonを実践形式でデータ分析するためのトレーニング本です。
本著は続編ではありますが、前編の応用編の位置づけではありません。もうひとつの現場のリアルなデータ分析として、ご自身が立派なデータ分析を行ったとしてもそれが現場に理解されない、また今後に生かされない、ということは無かったでしょうか。
本著では現場で活かせるデータ分析として、データ活用の仕組化を目指しています。データを整形して可視化、構築したモデルを用いて評価して終わりではなく、それを現場が理解できる形にレポーティングし、継続性を持った仕組み化を行うことをメインテーマとしています。
実際本著を用いて学習を進めていくと、見た目が立派なダッシュボードを作れるようになるのですが、実際の現場に則さないとして使えるダッシュボードに簡素化するプロセスがあります。このあたりもリアルな現場のあるあるではないでしょうか。
もちろん本著でもseabornなどの可視化ライブラリやOpenPyXlといったExcel連携ライブラリなど様々なライブラリを幅広く学びレベルアップすることができます。
本著もPython学習の中でぜひ皆さんに取り組んでいただきたい一冊となります。
本著で学ぶための注意点
紹介した2冊はPython学習の中でぜひ取り組んでいただきたいですが、本著で学ぶための注意点もあります。
前提となるPython環境の構築(Jupyter-Notebookを含む)や、使用ライブラリの準備は行う必要があります。具体的には、「Python実践データ分析100ノック」で使用する自然言語処理のライブラリMeCabの環境構築は調べながら行うことになるかと思います。
自信がない方は、まずは下記から入っていくと良いかと思います。
基本的には本著内のコード通りプログラミングすることで期待するアウトプットが出るはずですが、エラーがでた際のデバッグ作業は自身で進めていくことになります(誤記等で本著内のコード通りではエラーが出る箇所があります…)。こちらは現場の実践でも同じことなので、この機会に書籍やインターネットなどで調べながらデバッグを行う癖をつけましょう。
まとめ
本記事で紹介した「Python実践データ分析100本ノック」と「Python実践データ分析100本ノック」の2冊はリアルの現場で生きるPython活用のデータ分析実践編としてとても良くまとまったものとなっています。ぜひこの2冊を通してデータ分析の現場力を鍛えましょう!
100本×2冊で計200本のノック、おそらく数十時間はかかることになりますが、200本のノックを終えた頃には立派なデータサイエンティストを名乗れるようになっているのではないでしょうか。
コメント