datascience-notebook icon indicating copy to clipboard operation
datascience-notebook copied to clipboard

Data Science Notebooks in Python3 (ja)

DataScience Notebook

データサイエンスに関する内容をPythonをベースにまとめていきます。 もし間違いやTypoがあればIssue/PRお待ちしております。

Contents

今後も変更する予定がありますが、とりあえず現在追加を考えているものも含めています。

データ加工(Data Wrangling)・可視化

  • JupyterNotebook / numpy / pandas / matplotlib 入門
  • Pandasによるデータ加工(WIP)
  • 異常値・外れ値・欠損値
  • 次元削減(PCA, LDA)

特殊なデータの可視化

  • 金融データの可視化

統計(Statistics)と機械学習(Machine Learning)

  • 機械学習を勉強していく前に
  • 回帰分析(WIP)
  • 決定木
  • クラスタリング(WIP)
    • GMMについても書く
  • パターン認識(SVM)
  • パラメータ推定
  • 分類器
  • 時系列データ処理 (ACF, PACF, SARIMAモデル)

応用例

  • 映像品質評価に関する調査
    • 第一回 ディジタル画像の基礎とPSNR
    • 第二回 SSIM (Structural SIMilarity) Index
  • 日本語文書の感情分析(Sentiment Analysis)
  • 日本語文書の分類(bag-of-word)
  • レコメンド
  • 画像のパターン認識

SlideShow

notebookの「View」>「Cell Toolbar」>「SlideShow」からスライドショーにした時の表示方法を編集できます。 ここに追加しているnotebooksはスライドショーの表示にも対応しているため、下記のコマンドによってスライド形式で表示することが可能です。

$ ipython nbconvert --to slides notebooks/getting-started.ipynb --post serve

Setup

Setup with Docker (Recommended)

Dockerを使って簡単に環境を用意することができます。 jupyter notebookは公式でdocker imageを公開してくれていますが、 ここにあるNotebooksでは一部その中に含まれていないパッケージ等を使用しているため、このRepositoryのDockerfileを使用してください。

$ docker-compose build
$ docker-compose up -d

docker-composeがない方は直接dockerのコマンドを叩いてください。

$ docker build -t c-bata/datascience .
$ docker run -p 8888:8888 -v $PWD/notebooks:/home/jovyan/work c-bata/datascience

Requirements

下記の環境を用意してください。

  • Python3.5
  • GraphViz
  • Jupyter Notebook
  • Numpy / Scipy / Pandas
  • seaborn / matplotlib
  • Scikit-learn
$ pip install -c constraints.txt -r requirements.txt