成為初級資料分析師 | Python 與資料科學應用

起步走

郭耀仁

Now is better than never.

Tim Peters, Zen of Python

大綱

  • 安裝
  • 建立環境

安裝

根據使用者狀態決定

  • Power Users
    • 在瀏覽器使用 Google Colaboratory
    • 在本機端使用 Miniconda
  • Developer
    • 在本機端使用 Python Interpreter + Text Editor / IDE

這門課受眾是 Power users

  • 在瀏覽器使用 Google Colaboratory
  • 在本機端使用 Miniconda

在這門課中,我們多數章節都在瀏覽器使用 Google Colaboratory,僅有網頁資料擷取:瀏覽器自動化一節在本機端使用 Miniconda

在瀏覽器使用 Google Colaboratory

  1. 登入 Google 帳號
  2. 前往 https://colab.research.google.com/
  3. 新增 Python 3 Notebook

Imgur

在本機端使用 Miniconda

  • 開啟「命令提示字元」輸入 python --version 檢查電腦是否已經有安裝 Python
  • 開啟「應用程式」檢查電腦中有哪些 Python 版本

安裝 Miniconda

  • 前往 Miniconda 官方文件
  • 下載 Python 3.X 版本

為何 Miniconda 而不是 Anaconda?

安裝 Anaconda 的優點

  • 適合初學者的懶人包
    • Python 直譯器
    • Jupyter Notebook
    • Spyder / RStudio
    • 套件與環境管理工具 conda
    • 預先安裝好的資料科學套件

安裝 Anaconda 的缺點

  • 安裝時間長
  • 硬碟空間要求大
  • 預先安裝好的許多套件可能從來不會被使用到

Miniconda,較適合有經驗 Python 使用者的輕量化 Anaconda

  • Python 直譯器
  • 套件與環境管理工具 conda

先移除教室電腦中不必要的 Python 版本

  • Python.org 的版本
  • 未安裝在使用者目錄下的 Anaconda 版本

安裝 Miniconda 的步驟

  1. 前往 Miniconda 下載頁面,依照作業系統點選對應的 Python 3.X 安裝檔
  2. 依照提示點選下一步
  3. 選擇安裝路徑
  4. 依照提示點選我同意
  5. 等待安裝完成

建立環境

建立環境步驟

  1. 開啟 Anaconda Prompt
  2. 更新 conda
  3. 安裝 jupyter
  4. 創建環境
  5. 啟動環境
  6. 安裝套件
  7. 創建 Jupyter Notebook Kernel(在已經啟動環境的情況下)
  8. 卸載環境
  9. 開啟 Jupyter Notebook

開啟 Anaconda Prompt

Imgur

更新 conda

# run in command line
(base) conda update conda

安裝 jupyter

# run in command line
(base) conda install jupyter

檢視可用環境

# run in command line
(base) conda env list

創建環境

# run in command line
(base) conda create --name <env_name> python=3.7

啟動環境

# run in command line
(base) conda activate <env_name>
# conda deactivate # 回到原本的 (base)

安裝套件

# run in command line
(env_name) conda install ipykernel requests lxml beautifulsoup4 selenium

這些套件的用途分別是

  • 環境
    • ipykernel
  • 網路爬蟲
    • requests
    • lxml
    • beautifulsoup4
    • selenium

創建 Jupyter Notebook Kernel(在已經啟動環境的情況下)

# run in command line
(env_name) python -m ipykernel install --user --name <kernel_name> --display-name "Python Web Scraping"

檢視可用的 Jupyter Notebook Kernel

# run in command line
(env_name) jupyter kernelspec list

卸載環境

# run in command line
(env_name) conda deactivate

開啟 Jupyter Notebook

# run in command line
(base) jupyter notebook

Imgur

import 套件函式比較兩個 kernels

from bs4 import BeautifulSoup
from selenium import webdriver

如何刪除 Jupyter Notebook Kernel 或 conda environment

刪除 Jupyter Notebook Kernel

# run in command line
jupyter kernelspec remove <kernel_name>

刪除 conda environment

# run in command line
conda deactivate
conda remove --name <env_name> --all

如果您對建立環境的步驟還不熟悉,請不要擔心,在網頁資料擷取:瀏覽器自動化一節我們會再做一次