如何從少量樣本中挖掘重要信息
如何從少量樣本中挖掘重要信息
數據挖掘是一種從信息化社會的龐大數據中,挖掘寶藏的方法和程序,那么怎樣從少量樣本中挖掘重要信息呢?以下是學習啦小編為您帶來的關于從少量樣本中挖掘重要信息,希望對您有所幫助。
從少量樣本中挖掘重要信息
在面對許多數據時,怎樣使用最佳的方法進行分析至關重要;若沒有合適的數據,則必須從收集數據著手。此時,你會因為收集龐大的數據非常困難而放棄數據挖掘嗎?
首先,請大家檢驗一項問卷調查的結果.有本書叫《日本的開關》 (慶應義塾大學佐藤稚彥研究室著,每日新聞社,2004),其中記載了用手機收集的問卷調查的統(tǒng)計結果。此項調查利用手機詢問被調查者喜歡兩者中的哪一個(選擇),然后公布調查出來的比例。特點在于,利用手機快速傳遞信息的功能,在極短的時間內免費從2-3萬的龐大人群中獲得回答。
具體的調查內容如下所示,請讀者也試著回答一下。
問題1:“日本”的讀音,你喜歡“NIHON”還是“NIPPON”?
有22936名回答者;其中,喜歡“NIHON”的占61%,喜歡“NIPPON”的占39%。使用回答者多達2-3萬人的“日本的開關”的調查問卷,詢問43名數據挖掘同仁的意見。那么,結果與“日本的開關”有沒有差異呢(如下圖1和圖2)? 關于“日本”讀音的問題,回答結果是,“NIlHON”=70%,“NIPPON”=30%(圖2No.2)?;卮鹫弑壤?3/02936,不足“日本的開關”的總體回答者的0.2%。但是,從回答結果看,兩者都是“NIHON”的比例居高,具有相同傾向。兩者的相對誤差都是15%。
對10項不同類別的內容進行問卷調查,請回答者從a、b中選擇其中一個。然后,比較樣本數很多(2萬件以上)與樣本數很少時(43件)的結果有何不同。
結果如圖2所示。只有43名樣本數的調查與“日本的開關”調查的選擇a、b的傾向是一致的。而且相對誤差比例都在20%以下。針對所有問題的回答情況,兩者沒有較大差異。也就是說,樣本數多時和樣本數少時的回答結果的傾向大致相同。當然,收集數據時要特別注意不能出別偏差。如果使用隨機抽樣,可以判斷即使是少量樣本數,與超過它500倍的龐大樣本數的結果具有相同傾向。因此,在沒有大量數據的情況下,可以把少量數據看做縮略圖,以此捕捉樣本傾向,進行預測。
【圖1 】
【圖2】
大家是不是認為數據挖掘一定需要收集大量數據呢?請先從用Excel分析身邊的數據開始吧,前提是清楚數據分析是做什么的!用少量樣本數分析,也可以把握傾向和類型。學會收集分析身邊的數據并加以靈活運用非常重要。從筆者以往的經驗來看,即使只存在少量數據,也叮從中得到十分有用的信息。
猜你喜歡:
1.挖掘自己這座寶藏