[Big Data] 2016/8/31 台北醫學大學.大數據學分班.學習筆記
- 分析運作步驟:
- 訂定問題
- 確立要研究的母體範圍
- 取樣(多次取樣以逼近母體)
- 數據分析上,主要有兩件事,母體(Population)及取樣(Sampling)。
- 變數可被區分成兩種「數值型變數」和「類別型變數」
- 數值型變數:可以是「序列」、「區間」、「比例」這幾種型態。
- 類別型變數:命名式,譬如性別、顏色等變數
- 搭配上時間的變數,會讓運算複雜度升高非常多。
- 數據的起點在於「資料」,而資料之間會在「變數」上產生關係。
- 觀察資料時,可以試著對資料先做分群,以年齡來舉例,我們收集資料時會是一組1歲的資料、一組2歲的資料、一組3歲的資料…等,我可以將這些資料分組成1~3歲一組、4~8歲一組、9~12歲一組,而要如何分組,目前沒有特別有效的演算發可以協助找出,應該需要透過對該領域的了解,用經驗來試著分組,然後從整理出的結果再往後推敲更多可能性。
- 某些情況下,如果用累計的方式做分組,也可以取得意外的結果。
- 呈現資料的方式,可有下列幾種
- Bar Diagram:可以從此圖輕易看出高低落差或趨勢
- Pie Diagram:可以看出分佈狀況
- Histogram:可以在不同類組上看出整體性
- Graphic Diagram:可以輕易看出界限與值的比例關係
- 幾種變數的舉例
- 年齡
- BMI (Body Mass Index)
- 平均每週吃速食的次數
- 溫度
- 性別
- 運動量
- 變數必須可以被量度,否則無法進一步分析。
- 我們通常會去看變數之間的「關聯性」(Correlation),譬如小孩的起床時間與學習效率之間的關聯性。
- 要驗證關聯性,就需要實驗數據(Experiment)佐證,這邊我們可切分兩種變數類型,
- 操縱變量 (獨立變數)
- 觀察變量 (相依變數)
- 獨立變數與相依變數可以用機率學的獨立事件或相依事件來理解。
參考資料:
發佈留言
很抱歉,必須登入網站才能發佈留言。