返回首頁
當前位置: 主頁 > 互聯網技術 > 數據挖掘 >

如何從少量樣本中挖掘重要信息

時間:2017-10-14 23:43來源:電腦教程學習網 www.aedwey.tw 編輯:admin

數據挖掘是一種從信息化社會的龐大數據中,挖掘寶藏的方法和程序,那么怎樣從少量樣本中挖掘重要信息呢?在面對許多數據時,怎樣使用最佳的方法進行分析至關重要;若沒有合適的數據,則必須從收集數據著手。此時,你會因為收集龐大的數據非常困難而放棄數據挖掘嗎?

  首先,請大家檢驗一項問卷調查的結果.有本書叫《日本的開關》  (慶應義塾大學佐藤稚彥研究室著,每日新聞社,2004),其中記載了用手機收集的問卷調查的統計結果。此項調查利用手機詢問被調查者喜歡兩者中的哪一個(選擇),然后公布調查出來的比例。特點在于,利用手機快速傳遞信息的功能,在極短的時間內免費從2-3萬的龐大人群中獲得回答。

  具體的調查內容如下所示,請讀者也試著回答一下。

  問題1:“日本”的讀音,你喜歡“NIHON”還是“NIPPON”?

  有22936名回答者;其中,喜歡“NIHON”的占61%,喜歡“NIPPON”的占39%。使用回答者多達2-3萬人的“日本的開關”的調查問卷,詢問43名數據挖掘同仁的意見。那么,結果與“日本的開關”有沒有差異呢(如下圖1和圖2)? 關于“日本”讀音的問題,回答結果是,“NIlHON”=70%,“NIPPON”=30%(圖2No.2)。回答者比例是43/02936,不足“日本的開關”的總體回答者的0.2%。但是,從回答結果看,兩者都是“NIHON”的比例居高,具有相同傾向。兩者的相對誤差都是15%。

  從少量樣本中挖掘重要信息

  對10項不同類別的內容進行問卷調查,請回答者從a、b中選擇其中一個。然后,比較樣本數很多(2萬件以上)與樣本數很少時(43件)的結果有何不同。

  結果如圖2所示。只有43名樣本數的調查與“日本的開關”調查的選擇a、b的傾向是一致的。而且相對誤差比例都在20%以下。針對所有問題的回答情況,兩者沒有較大差異。也就是說,樣本數多時和樣本數少時的回答結果的傾向大致相同。當然,收集數據時要特別注意不能出別偏差。如果使用隨機抽樣,可以判斷即使是少量樣本數,與超過它500倍的龐大樣本數的結果具有相同傾向。因此,在沒有大量數據的情況下,可以把少量數據看做縮略圖,以此捕捉樣本傾向,進行預測。 

  【圖1 】問卷調查的10項內容 

  【圖2】問卷調查結果(選擇a的回答比例%)

  大家是不是認為數據挖掘一定需要收集大量數據呢?請先從用Excel分析身邊的數據開始吧,前提是清楚數據分析是做什么的!用少量樣本數分析,也可以把握傾向和類型。學會收集分析身邊的數據并加以靈活運用非常重要。從筆者以往的經驗來看,即使只存在少量數據,也叮從中得到十分有用的信息。

------分隔線----------------------------
標簽(Tag):數據挖掘
------分隔線----------------------------
推薦內容
猜你感興趣
26选5中奖通告