[Big Data] 2016/8/31 台北醫學大學.大數據學分班.學習筆記

  • 分析運作步驟:
    1. 訂定問題
    2. 確立要研究的母體範圍
    3. 取樣(多次取樣以逼近母體)
  • 數據分析上,主要有兩件事,母體(Population)及取樣(Sampling)。
  • 變數可被區分成兩種「數值型變數」和「類別型變數」
    1. 數值型變數:可以是「序列」、「區間」、「比例」這幾種型態。
    2. 類別型變數:命名式,譬如性別、顏色等變數
  • 搭配上時間的變數,會讓運算複雜度升高非常多。
  • 數據的起點在於「資料」,而資料之間會在「變數」上產生關係。
  • 觀察資料時,可以試著對資料先做分群,以年齡來舉例,我們收集資料時會是一組1歲的資料、一組2歲的資料、一組3歲的資料…等,我可以將這些資料分組成1~3歲一組、4~8歲一組、9~12歲一組,而要如何分組,目前沒有特別有效的演算發可以協助找出,應該需要透過對該領域的了解,用經驗來試著分組,然後從整理出的結果再往後推敲更多可能性。
  • 某些情況下,如果用累計的方式做分組,也可以取得意外的結果。
  • 呈現資料的方式,可有下列幾種
    1. Bar Diagram:可以從此圖輕易看出高低落差或趨勢
    2. Pie Diagram:可以看出分佈狀況
    3. Histogram:可以在不同類組上看出整體性
    4. Graphic Diagram:可以輕易看出界限與值的比例關係
  • 幾種變數的舉例
    • 年齡
    • BMI (Body Mass Index)
    • 平均每週吃速食的次數
    • 溫度
    • 性別
    • 運動量
  • 變數必須可以被量度,否則無法進一步分析。
  • 我們通常會去看變數之間的「關聯性」(Correlation),譬如小孩的起床時間學習效率之間的關聯性。
  • 要驗證關聯性,就需要實驗數據(Experiment)佐證,這邊我們可切分兩種變數類型,
    • 操縱變量 (獨立變數)
    • 觀察變量 (相依變數)
  • 獨立變數與相依變數可以用機率學的獨立事件或相依事件來理解。

參考資料:

統計學的基本概念

量化研究方法 – 統計資料分析

發佈留言