[Big Data] 2016/9/7 台北醫學大學.大數據學分班.學習筆記

  • Sampling (取樣):一個從母體選取單位的過程,而且是我們有興趣了解的單位,讓我們可以藉由對這些樣本的研究,反推整個母體的模樣。
  • Accessible population:因為預算等研究限制的關係,可以接觸到的母體群
  • Theoretical population:我們想要歸納的群體
  • 要從母體中取一大區塊的群體並假設該群體具有代表性,是幾乎不可能的事情
  • 從食物分析來看,我們會切分兩個關鍵在意的部分
    • 屬性 (Attribute) : 是否為必然的特性?
    • 變數 (Variable) : 可測量
  • 分析要用有一致性(Homogeneous)的資料,如果是不一致(Heterogeneous)的資料,我們會先將其分群成各個一致性資料。
  • Heterogeneous Sampling
    • 連續性的:譬如「取樣裝置」
    • 手動 (試圖取得公正的樣本):非機率分布的取樣,如「判斷」、「舒適性」、「配額」; 機率分布取樣,如「隨機」、「系統化」、「分群」
  • 取樣大小會依據不同的統計學基礎有不同的大小。
  • 取樣時會遇到以下問題
    • 樣本難以儲存,譬如「熱」、「光」等
    • 樣本無法被標記
  • 分析樣本前
    • 減少樣本大小,去除不適合我們研究的樣本
    • 以食物分析來說,可以分析酵素活性、微生物生長率
  • 減少樣本大小的兩個過程
    • 內部驗證:先稍微看看樣本整體狀況,去除不適合的樣本。譬如「是否有一致性?」
    • 外部驗證:可歸納的證據,譬如樣本取得是否公正 ; 檢驗是否有相近的模型
  • 取樣方法:
    • 隨機選取:從母體隨機選一組人,會發生在「隨機指定」之前
    • 隨機指定:隨機選到的這組人,有相等的機會被分到任一個群組內。此項較偏向實驗設計,作為區分實驗組與對照組的方法。
  • 統計上的取樣項目
    • Response:被取樣單位提供的特定測量值
    • Statistic:Mean、Median,Mode
    • Parameter:從整個母體看到的衡量值,而不是從樣本內去看
    • Mean:平均值
    • Variance:變異數
    • Standard Deviation:標準差
  • 有母數的統計分析,要先檢查茲料是不是常態分佈。統計方法可能會限制在常態分佈下才適用
  • 取樣設計
    • 隨機取樣
    • 非隨機取樣
  • Stratified Random Sampling
    • 先將母體切分成幾個相近的群體,然後用Simple Random Sampling。
    • 當strata的大小大致相同時可使用。
    • 優點
      • 確保每個strata都是一樣的長相
      • 有較小的測量誤差
      • 因為切分成好幾個小群體,量測工作變得較容易被管理且便宜。
    • 缺點
      • 需要了解母體的狀況
      • 無法被用在當母體很難被切成disjoint子群體時
  • Proportional Stratified Sampling
    • 當strata群體大小不一致時可使用
    • 例如:在北美的男性電腦科學博士生與女性電腦科學博士生之間的差異
    • 優點
      • 確保每個strata長得一樣
    • 缺點
      • 需要了解母體的狀況
  • Cluster Sampling
    • 當母體很分散時可使用 (Heterogeneous)
    • 將母體切割成許多小單元
    • 然後從一些叢集裡隨機選出樣本
    • 優點
      • 可以比其它方法便宜
      • 在大型母體的狀況下,此方法較有可行性
      • 降低變異性
    • 缺點
      • 較高的取樣誤差
      • 取樣的群體有偏見時,會導致推論整個母體都是一樣的意見,但這並不是真實的狀況
  • Systematic Sampling
    • 用一組預定好的順序來取樣
    • 譬如:第一個取樣用隨機選取,然後開始每格3個單元再取一個作為樣本
    • 母體必須是Homogeneous,因為該取樣方式是基於常態分佈的母體
  • Non-probability Sampling
    • Convenience Sampling (任意抽樣):隨機選擇樣本
      • 最便宜省時
      • 母體內的單位差異大時,誤差也大
      • 可分成「街頭攔人法」和「空間抽樣法」
    • Quota Sampling (配額抽樣):將總體分類或分層後,並對各類(層)進行配額,然後在各群體配額內做任意抽樣
      • 分兩類
        • 獨立控制配額抽樣:只對樣本獨立規定一種特徵下的樣本配額。如在消費者需求調查中,我們按年齡特征,分別規定不同年齡段的樣本數目。
        • 相互控制配額抽樣:在獨立分配樣本數額基礎上,再採用交叉控制安排樣本的具體數額的抽樣方式。
      • 適用在對總體的有關特徵具有一定的瞭解而且樣本數較多的情況
      • 優點
        • 費用不高、易於實施、能滿足總體比例的要求
      • 缺點
        • 容易掩蓋不可忽略的誤差
    • Purposive Sampling:由研究者透過一些問題、談話來判斷選取樣本
      • 優點
        • 省錢省時
        • 適合只有極少的樣本來源
      • 缺點
        • 研究者的判斷誤差
        • 低信賴度與高偏見
        • 難以歸納研究發現
      • 因為上述缺點所以在商業案例討論上較不流行使用
  • 參考資料

發佈留言