這是應用數據科學實戰營-助教班課程的練習,請依照以下指令下載範例程式。
$ git clone https://github.com/hugolu/adsc.git
$ cd adsc
- hortonworks_vm - hortonworks sandbox 簡易安裝步驟
- hadoop_vm - hadoop 虛擬機安裝教學
- retail_analysis - 零售分析:練習將SQL資料導入HIVE,並進行熱門銷售分析
- weblog_analysis - 網頁點擊分析:處理 unstructured rawdata,將其導入HIVE資料庫,並找出最常被查詢的產品
- movielens - 第一天上課的測驗:find top 5 movie genres rated by each occupation
- movielens2 - 修改movielens的解法,使用HIVE ETL功能
- retail_analysis_spark - 透過 spark 找出最佳購買組合 (尿布與啤酒的分析)
- scala_in_10_minutes - 簡短說明scala的用法
- spark_in_10_minutes - 簡短說明spark-shell的用法