數(shù)據(jù)報告心得體會
大數(shù)據(jù)的初衷就是將一個公開、高效的政府呈現(xiàn)在人民眼前。你知道數(shù)據(jù)報告心得體會是什么嗎?接下來就是學(xué)習(xí)啦小編為大家整理的關(guān)于數(shù)據(jù)報告心得體會,供大家閱讀!
數(shù)據(jù)報告心得體會篇1
介紹數(shù)據(jù)分析/挖掘的圖書有很多,這些圖書分為很多等級,有的是直接面向應(yīng)用(business, academy or interplay between both two),有的是介紹理論背景(個人認(rèn)為很重要,如果以20/80規(guī)則,這些圖書將有助于解決剩余20%的問題,不過你可能要付出80%精力),有的是結(jié)合各類計算工具(例如SAS,Excel,R etc)。相信很多人對此都很頭疼,到底應(yīng)該如何選擇呢?
現(xiàn)在先談?wù)勎覀€人在數(shù)據(jù)分析的經(jīng)歷,最后我將會做個總結(jié)。
大學(xué)開設(shè)了兩門專門講授數(shù)據(jù)分析基礎(chǔ)知識的課程:“概率統(tǒng)計”和“高等多元數(shù)據(jù)分析”。這兩門選用的教材是有中國特色的國貨,不僅體系完整而且重點突出,美中不足的是前后內(nèi)在的邏輯性欠缺,即各知識點之間的關(guān)聯(lián)性沒有被闡述明白,而且在應(yīng)用方面缺少系統(tǒng)地訓(xùn)練。當(dāng)時,我靠著題海戰(zhàn)術(shù)把這兩門課給混過去了,現(xiàn)在看來是純忽悠而已。(不過,如果當(dāng)時去應(yīng)聘數(shù)據(jù)分析職位肯定有戲,至少筆試可以過關(guān))。
抱著瞻仰中國的最高科研圣地的想法,大學(xué)畢業(yè)后我奮不顧身的考取了中科院的研究生。不幸的是,雖然頂著號稱是高級生物統(tǒng)計學(xué)的專業(yè),我再也沒有受到專業(yè)的訓(xùn)練,一切全憑自己摸索和研究(不過,我認(rèn)為這樣反而挺好,至少咱底子還是不錯的,一直敏而好學(xué))。首先,我盡全力搜集一切資料(從大學(xué)帶過來的習(xí)慣),神勇地看了一段時間,某一天我突然“頓悟”,這樣的學(xué)習(xí)方式是不行的,要以應(yīng)用為依托才能真正學(xué)會。然后呢,好在咱的環(huán)境的研究氛圍(主要是學(xué)生)還是不錯滴,我又轟轟烈烈地跳入了paper的海洋,看到無數(shù)牛人用到很多牛方法,這些方法又號稱解決了很多牛問題,當(dāng)時那個自卑呀,無法理解這些papers。某一天,我又“頓悟”到想從papers中找到應(yīng)用是不行的,你得先找到科學(xué)研究的思路才行,打個比方,這些papers其實是上鎖的,你要先找到鑰匙才成。幸運的是,我得到了笛卡爾先生的指導(dǎo),盡管他已經(jīng)仙游多年,他的“談?wù)劮椒?rdquo;為后世科研界中的被“放羊”的孤兒們指條不錯的道路(雖然可能不是最好地,the better or best way要到國外去尋找,現(xiàn)在特別佩服毅然出國的童鞋們,你們的智商至少領(lǐng)先俺三年)。好了,在咱不錯的底子的作用下,我掌握了科研方法(其實很簡單,日后我可能會為“談?wù)劮椒?rdquo;專門寫篇日志)??上В@時留給咱的時間不多了,中科院的碩博連讀是5年,這對很多童鞋們綽綽有余的,但是因本人的情商較低,被小人“陷害”,被耽擱了差不多一年。這時,我發(fā)揮了“虎”(東北話)的精神,選擇了一個應(yīng)用方向,終于開始了把數(shù)據(jù)分析和應(yīng)用結(jié)合的旅程了。具體過程按下不表,我先是把自己掌握的數(shù)據(jù)分析方法順次應(yīng)用了,或者現(xiàn)成的方法不適合,或者不能很好的解決問題,當(dāng)時相當(dāng)?shù)拿悦Q?,難道是咱的底子出了問題。某一天,我又“頓悟”了,毛主席早就教育我們要“具體問題具體分析”,“教條主義”要不得,我應(yīng)該從問題的本質(zhì)入手,從本質(zhì)找方法,而不是妄想從繁多的方法去套住問題的本質(zhì)。好了,我辛苦了一段時間,終于解決了問題,不過,我卻有些糾結(jié)了。對于數(shù)據(jù)發(fā)分析,現(xiàn)在我的觀點就是“具體問題具體分析”,你首先要深入理解被分析的問題(領(lǐng)域),盡力去尋找問題的本質(zhì),然后你只需要使用些基本的方法就可以很好的解決問題了,看來“20/80法則”的幽靈無處不在呀。于是乎,咱又回到了原點,趕緊去學(xué)那些基礎(chǔ)知識方法吧,它們是很重要滴。
這里,說了一大堆,我做過總結(jié):首先,你要掌握扎實的基礎(chǔ)知識,并且一定要深入理解,在自己的思維里搭建起一橋,它連接著抽象的數(shù)據(jù)分析方法和現(xiàn)實的應(yīng)用問題;其次,你要有意識的去訓(xùn)練分析問題的能力;最后,你要不斷的積累各方面的知識,記住沒有“無源之水”、“無根之木”,良好的數(shù)據(jù)分析能力是建立在豐富的知識儲備上的。
數(shù)據(jù)報告心得體會篇2
有人說生活像一團亂麻,剪不斷理還亂;我說生活像一團亂碼,盡管云山霧罩惝恍迷離,最后卻總會撥云見日雨過天晴。維克托邁爾舍恩伯格就把這團亂碼叫做大數(shù)據(jù),在他的這本書里,試圖給出的就是撥開云霧見青天的玄機。
這玄機說來也簡單,就是放棄千百年來人們孜孜追求的因果關(guān)系轉(zhuǎn)而投奔相關(guān)關(guān)系。說來簡單,其實卻顛覆了多少代人對真理探求的夢想。我覺得作者是個典型的實用主義者,在美帝國主義萬惡的壓迫和洗腦下,始終追逐性價比和利益最大化,居然放棄了追求共產(chǎn)主義真理最基本的要求!不像我們在天朝光芒的籠罩下,從小就開始學(xué)習(xí)和追求純粹的共產(chǎn)主義唯心科學(xué)歷史文化知識啦!這或許就是我們永遠(yuǎn)無法獲得諾貝爾獎、永遠(yuǎn)無法站在科技最前沿的根本原因吧。其實小學(xué)時候,我就想過這個問題,相信所有的人都問過類似的問題,例如現(xiàn)在仍然很多人在問,媽的從來沒人知道我每天擺攤賺多少錢,你們他媽的那人均收入四五千是怎么算出來的。中國是抽樣的代表,因為中國人最喜歡用代表來表現(xiàn)整體,最典型的例子莫過于公布的幸福指數(shù)滿意指數(shù)各種指數(shù)永遠(yuǎn)都高于你的預(yù)期,你完全不清楚他是怎么來的,一直到最后匯總成三個代表,真心不清楚它到底能代表了啥。說這么多顯得自己是個憤青,其實只是想表達(dá)“樣本=總體”這個概念在科技飛速發(fā)展的今天,在世界的不同角落,還是會體現(xiàn)出不同的價值,受到不同程度的對待及關(guān)注。在大數(shù)據(jù)觀念的沖擊下,我們是不是真的需要將平時關(guān)注的重點從事物內(nèi)在的發(fā)展規(guī)律轉(zhuǎn)移到事物客觀的發(fā)生情況上。
大數(shù)據(jù)的出現(xiàn),必然對諸多領(lǐng)域產(chǎn)生極大的沖擊,某些行業(yè)在未來十年必將會得到突飛猛進的發(fā)展,而其他一些行業(yè)則可能會消失。這是廢話,典型的三十年河?xùn)|三十年河西的道理,就像三十年前的數(shù)理化王子們,現(xiàn)在可能蜷縮在某工廠的小角落里顫顫巍巍的修理機器;就像三十年前職業(yè)高中的學(xué)生才學(xué)財會學(xué)銀行,如今這幫孫子一個個都開大奔養(yǎng)小三攢的樓房夠給自己做墓群的了;當(dāng)然也不乏像生物這種專業(yè),三十年前人們不知道是干啥的,三十年后人們都知道沒事別去干,唯一可惜的是我在這三十年之間的歷史長河中卻恰恰選了這么一個專業(yè),這也是為什么我現(xiàn)在在這寫讀后感而沒有跟姑娘去玩耍的原因。其實乍一看這個題目,我首先想到的是精益生產(chǎn)的過程控制,比如六西格瑪,這其實就是通過對所有數(shù)據(jù)的分析來預(yù)測產(chǎn)品品質(zhì)的變化,就已經(jīng)是大數(shù)據(jù)的具體應(yīng)用了。
而任何事物都會有偏差,會有錯誤,也就是說,這全部的數(shù)據(jù)中,肯定是要出現(xiàn)很多與總體反應(yīng)出的規(guī)律相違背的個體,但是無論如何這也是該事件中一般規(guī)律的客觀體現(xiàn)的一種形式,要遠(yuǎn)遠(yuǎn)好過從選定的樣本中剔除異常值然后得到的結(jié)論。換句話說,也大大減少了排除異己對表達(dá)事物客觀規(guī)律的影響。就好比是統(tǒng)計局統(tǒng)計中國人民的平均收入一樣,這些數(shù)怎么這么低啊,這不是給我們國家在國際社會上的形象抹黑么,刪掉刪掉;這些數(shù)怎么這么高啊,這還不引起社會不滿國家動蕩啊,刪掉刪掉。所以說,大數(shù)據(jù)至少對反應(yīng)客觀事實和對客觀事實做預(yù)測這兩個方面是有非常積極地意義的。而這個新興行業(yè)所體現(xiàn)的商機,既在如何利用數(shù)據(jù)上,又在如何取得數(shù)據(jù)上。
先說數(shù)據(jù)的利用,這里面表達(dá)的就是作者在通書中強調(diào)的對“相關(guān)關(guān)系”的挖掘利用。相關(guān)關(guān)系與因果關(guān)系便不再贅述,而能夠?qū)ο嚓P(guān)關(guān)系進行挖掘利用的企業(yè)其實缺不多,因為可以相信未來的大數(shù)據(jù)庫就像現(xiàn)在的自然資源一樣,必將因為對利益的追逐成為稀缺資源,而最終落在個別人或企業(yè)或部門的手中。想想無論當(dāng)你想要做什么事情的時候,都有人已經(jīng)提前知道并且為你做好了計劃,還真是一件甜蜜而又令人不寒而栗的事情。
而對于數(shù)據(jù)的獲取,我覺得必然是未來中小型企業(yè)甚至個人發(fā)揮極致的創(chuàng)造力的領(lǐng)域。如何在盡可能降低成本的情況下采集到越多越準(zhǔn)確的數(shù)據(jù)是必然的發(fā)展趨勢,鑒于這三個維度事實上都無法做到極致,那么對于數(shù)據(jù)獲取方式的爭奪肯定將成就更多的英雄人物。
現(xiàn)在回頭從說說作者書中的觀點中想到的,P87中關(guān)于巴斯德的疫苗的事件,描述了一個被瘋狗咬傷的小孩,在接種了巴斯德的狂犬疫苗后成功幸存,巴斯德成了英雄的故事。這是個非常有意思的案例,因為小孩被狗咬傷而患病的概率僅為七分之一,也就是說,本事件有85%的概率是小孩根本就不會患病。那么小孩的生命到底是不是巴斯德救的,而這疫苗到底是有效沒效,通過這個事件似乎根本就沒有辦法得到驗證。這就好比某人推出個四萬億計劃,但實際上國際經(jīng)濟形勢就是好轉(zhuǎn),哪怕你只推出個二百五計劃,GDP都會蹭蹭的往上漲,而且又不會帶來四萬億導(dǎo)致的嚴(yán)重通脹、產(chǎn)能過剩、房價泡沫等問題。那你說這四萬億到底是救了國還是誤了國?回到我自己的工作領(lǐng)域上來,安全工作,我們一直遵循的方向都是尋找因果關(guān)系,典型的從工作前的風(fēng)險評估,到調(diào)查事故的Taproot或者五個為什么,無一不是邏輯推理得到結(jié)果的產(chǎn)物。而事實上,如果能做到信息的豐富采集和匯總的話,找出事物之間的相關(guān)性,對提高工作環(huán)境的安全系數(shù)是極為有利的。這個點留著,看看可不可以在未來繼續(xù)做進一步研究。
數(shù)據(jù)報告心得體會篇3
關(guān)于軟件
分析前期可以使用EXCEL進行數(shù)據(jù)清洗、數(shù)據(jù)結(jié)構(gòu)調(diào)整、復(fù)雜的新變量計算(包括邏輯計算);在后期呈現(xiàn)美觀的圖表時,它的制圖制表功能更是無可取代的利器;但需要說明的是,EXCEL畢竟只是辦公軟件,它的作用大多局限在對數(shù)據(jù)本身進行的操作,而非復(fù)雜的統(tǒng)計和計量分析,而且,當(dāng)樣本量達(dá)到“萬”以上級別時,EXCEL的運行速度有時會讓人抓狂。
SPSS是擅長于處理截面數(shù)據(jù)的傻瓜統(tǒng)計軟件。首先,它是專業(yè)的統(tǒng)計軟件,對“萬”甚至“十萬”樣本量級別的數(shù)據(jù)集都能應(yīng)付自如;其次,它是統(tǒng)計軟件而非專業(yè)的計量軟件,因此它的強項在于數(shù)據(jù)清洗、描述統(tǒng)計、假設(shè)檢驗(T、F、卡方、方差齊性、正態(tài)性、信效度等檢驗)、多元統(tǒng)計分析(因子、聚類、判別、偏相關(guān)等)和一些常用的計量分析(初、中級計量教科書里提到的計量分析基本都能實現(xiàn)),對于復(fù)雜的、前沿的計量分析無能為力;第三,SPSS主要用于分析截面數(shù)據(jù),在時序和面板數(shù)據(jù)處理方面功能了了;最后,SPSS兼容菜單化和編程化操作,是名副其實的傻瓜軟件。
STATA與EVIEWS都是我偏好的計量軟件。前者完全編程化操作,后者兼容菜單化和編程化操作;雖然兩款軟件都能做簡單的描述統(tǒng)計,但是較之SPSS差了許多;STATA與EVIEWS都是計量軟件,高級的計量分析能夠在這兩個軟件里得到實現(xiàn);STATA的擴展性較好,我們可以上網(wǎng)找自己需要的命令文件(.ado文件),不斷擴展其應(yīng)用,但EVIEWS就只能等著軟件升級了;另外,對于時序數(shù)據(jù)的處理,EVIEWS較強。
綜上,各款軟件有自己的強項和弱項,用什么軟件取決于數(shù)據(jù)本身的屬性及分析方法。EXCEL適用于處理小樣本數(shù)據(jù),SPSS、STATA、EVIEWS可以處理較大的樣本;EXCEL、SPSS適合做數(shù)據(jù)清洗、新變量計算等分析前準(zhǔn)備性工作,而STATA、EVIEWS在這方面較差;制圖制表用EXCEL;對截面數(shù)據(jù)進行統(tǒng)計分析用SPSS,簡單的計量分析SPSS、STATA、EVIEWS可以實現(xiàn),高級的計量分析用STATA、EVIEWS,時序分析用EVIEWS。
關(guān)于因果性
做統(tǒng)計或計量,我認(rèn)為最難也最頭疼的就是進行因果性判斷。假如你有A、B兩個變量的數(shù)據(jù),你怎么知道哪個變量是因(自變量),哪個變量是果(因變量)?
早期,人們通過觀察原因和結(jié)果之間的表面聯(lián)系進行因果推論,比如恒常會合、時間順序。但是,人們漸漸認(rèn)識到多次的共同出現(xiàn)和共同缺失可能是因果關(guān)系,也可能是由共同的原因或其他因素造成的。從歸納法的角度來說,如果在有A的情形下出現(xiàn)B,沒有A的情形下就沒有B,那么A很可能是B的原因,但也可能是其他未能預(yù)料到的因素在起作用,所以,在進行因果判斷時應(yīng)對大量的事例進行比較,以便提高判斷的可靠性。
有兩種解決因果問題的方案:統(tǒng)計的解決方案和科學(xué)的解決方案。統(tǒng)計的解決方案主要指運用統(tǒng)計和計量回歸的方法對微觀數(shù)據(jù)進行分析,比較受干預(yù)樣本與未接受干預(yù)樣本在效果指標(biāo)(因變量)上的差異。需要強調(diào)的是,利用截面數(shù)據(jù)進行統(tǒng)計分析,不論是進行均值比較、頻數(shù)分析,還是方差分析、相關(guān)分析,其結(jié)果只是干預(yù)與影響效果之間因果關(guān)系成立的必要條件而非充分條件。類似的,利用截面數(shù)據(jù)進行計量回歸,所能得到的最多也只是變量間的數(shù)量關(guān)系;計量模型中哪個變量為因變量哪個變量為自變量,完全出于分析者根據(jù)其他考慮進行的預(yù)設(shè),與計量分析結(jié)果沒有關(guān)系??傊?,回歸并不意味著因果關(guān)系的成立,因果關(guān)系的判定或推斷必須依據(jù)經(jīng)過實踐檢驗的相關(guān)理論。雖然利用截面數(shù)據(jù)進行因果判斷顯得勉強,但如果研究者掌握了時間序列數(shù)據(jù),因果判斷仍有可為,其中最經(jīng)典的方法就是進行“格蘭杰因果關(guān)系檢驗”。但格蘭杰因果關(guān)系檢驗的結(jié)論也只是統(tǒng)計意義上的因果性,而不一定是真正的因果關(guān)系,況且格蘭杰因果關(guān)系檢驗對數(shù)據(jù)的要求較高(多期時序數(shù)據(jù)),因此該方法對截面數(shù)據(jù)無能為力。綜上所述,統(tǒng)計、計量分析的結(jié)果可以作為真正的因果關(guān)系的一種支持,但不能作為肯定或否定因果關(guān)系的最終根據(jù)。
科學(xué)的解決方案主要指實驗法,包括隨機分組實驗和準(zhǔn)實驗。以實驗的方法對干預(yù)的效果進行評估,可以對除干預(yù)外的其他影響因素加以控制,從而將干預(yù)實施后的效果歸因為干預(yù)本身,這就解決了因果性的確認(rèn)問題。
關(guān)于實驗
在隨機實驗中,樣本被隨機分成兩組,一組經(jīng)歷處理條件(進入干預(yù)組),另一組接受控制條件(進入對照組),然后比較兩組樣本的效果指標(biāo)均值是否有差異。隨機分組使得兩組樣本“同質(zhì)”,即“分組”、“干預(yù)”與樣本的所有自身屬性相互獨立,從而可以通過干預(yù)結(jié)束時兩個群體在效果指標(biāo)上的差異來考察實驗處理的凈效應(yīng)。隨機實驗設(shè)計方法能夠在最大程度上保證干預(yù)組與對照組的相似性,得出的研究結(jié)論更具可靠性,更具說服力。但是這種方法也是備受爭議的,一是因為它實施難度較大、成本較高;二是因為在干預(yù)的影響評估中,接受干預(yù)與否通常并不是隨機發(fā)生的;第三,在社會科學(xué)研究領(lǐng)域,完全隨機分配實驗對象的做法會涉及到研究倫理和道德問題。鑒于上述原因,利用非隨機數(shù)據(jù)進行的準(zhǔn)試驗設(shè)計是一個可供選擇的替代方法。準(zhǔn)實驗與隨機實驗區(qū)分的標(biāo)準(zhǔn)是前者沒有隨機分配樣本。
通過準(zhǔn)實驗對干預(yù)的影響效果進行評估,由于樣本接受干預(yù)與否并不是隨機發(fā)生的,而是人為選擇的,因此對于非隨機數(shù)據(jù),不能簡單的認(rèn)為效果指標(biāo)的差異來源于干預(yù)。在剔除干預(yù)因素后,干預(yù)組和對照組的本身還可能存在著一些影響效果指標(biāo)的因素,這些因素對效果指標(biāo)的作用有可能同干預(yù)對效果指標(biāo)的作用相混淆。為了解決這個問題,可以運用統(tǒng)計或計量的方法對除干預(yù)因素外的其他可能的影響因素進行控制,或運用匹配的方法調(diào)整樣本屬性的不平衡性——在對照組中尋找一個除了干預(yù)因素不同之外,其他因素與干預(yù)組樣本相同的對照樣本與之配對——這可以保證這些影響因素和分組安排獨立。
隨機實驗需要至少兩期的面板數(shù)據(jù),并且要求樣本在干預(yù)組和對照組隨機分布,分析方法就是DID(倍差法,或曰雙重差分法);準(zhǔn)實驗分析用截面數(shù)據(jù)就能做,不要求樣本在干預(yù)組和對照組隨機分布,分析方法包括DID(需兩期的面板數(shù)據(jù))、PSM(傾向性得分匹配法,需一期的截面數(shù)據(jù))和PSM-DID(需兩期的面板數(shù)據(jù))。從準(zhǔn)確度角度來說,隨機實驗的準(zhǔn)確度高于準(zhǔn)實驗和非實驗分析。關(guān)于分析工具的選擇
數(shù)據(jù)報告心得體會篇4
轉(zhuǎn)眼間實習(xí)已去一月,之前因為工作原因需要惡補大量的專業(yè)知識并加以練習(xí),所以一直抽不開身靜下心來好好整理一下學(xué)習(xí)的成果。如今,模型的建立已經(jīng)完成,剩下的就是枯燥的參數(shù)調(diào)整工作。在這之前就先對這段時間的數(shù)據(jù)處理工作得到的經(jīng)驗做個小總結(jié)吧。
從我個人的理解來看,數(shù)據(jù)分析工作,在絕大部分情況下的目的在于用統(tǒng)計學(xué)的手段揭示數(shù)據(jù)所呈現(xiàn)的一些有用的信息,比如事物的發(fā)展趨勢和規(guī)律;又或者是去定位某種或某些現(xiàn)象的原因;也可以是檢驗?zāi)撤N假設(shè)是否正確(心智模型的驗證)。因此,數(shù)據(jù)分析工作常常用來支持決策的制定。
現(xiàn)代統(tǒng)計學(xué)已經(jīng)提供了相當(dāng)豐富的數(shù)據(jù)處理手段,但統(tǒng)計學(xué)的局限性在于,它只是在統(tǒng)計的層面上解釋數(shù)據(jù)所包含的信息,并不能從數(shù)據(jù)上得到原理上的結(jié)果。也就是說統(tǒng)計學(xué)并不能解釋為什么數(shù)據(jù)是個樣子,只能告訴我們數(shù)據(jù)展示給了我們什么。因此,統(tǒng)計學(xué)無法揭示系統(tǒng)性風(fēng)險,這也是我們在利用統(tǒng)計學(xué)作為數(shù)據(jù)處理工具的時候需要注意的一點。數(shù)據(jù)挖掘也是這個道理。因為數(shù)據(jù)挖掘的原理大多也是基于統(tǒng)計學(xué)的理論,因此所挖掘出的信息并不一定具有普適性。所以,在決策制定上,利用統(tǒng)計結(jié)果+專業(yè)知識解釋才是最保險的辦法。然而,在很多時候,統(tǒng)計結(jié)果并不能用已有的知識解釋其原理,而統(tǒng)計結(jié)果又確實展示出某種或某些穩(wěn)定的趨勢。為了抓住寶貴的機會,信任統(tǒng)計結(jié)果,僅僅依據(jù)統(tǒng)計分析結(jié)果來進行決策也是很普遍的事情,只不過要付出的代價便是承受系統(tǒng)環(huán)境的變化所帶來的風(fēng)險。
用于數(shù)據(jù)分析的工具很多,從最簡單的Office組件中的Excel到專業(yè)軟件R、Matlab,功能從簡單到復(fù)雜,可以滿足各種需求。在這里只能是對我自己實際使用的感受做一個總結(jié)。
Excel:這個軟件大多數(shù)人應(yīng)該都是比較熟悉的。Excel滿足了絕大部分辦公制表的需求,同時也擁有相當(dāng)優(yōu)秀的數(shù)據(jù)處理能力。其自帶的ToolPak(分析工具庫)和Solver(規(guī)劃求解加載項)可以完成基本描述統(tǒng)計、方差分析、統(tǒng)計檢驗、傅立葉分析、線性回歸分析和線性規(guī)劃求解工作。這些功能在Excel中沒有默認(rèn)打開,需要在Excel選項中手動開啟。除此以外,Excel也提供較為常用的統(tǒng)計圖形繪制功能。這些功能涵蓋了基本的統(tǒng)計分析手段,已經(jīng)能夠滿足絕大部分?jǐn)?shù)據(jù)分析工作的需求,同時也提供相當(dāng)友好的操作界面,對于具備基本統(tǒng)計學(xué)理論的用戶來說是十分容易上手的。
SPSS:原名Statistical Package for the Social Sciences(社會科學(xué)統(tǒng)計軟件包),現(xiàn)在已被IBM收購,改名后仍然是叫SPSS,不過全稱變更為Statistical Product and Service Solutions(統(tǒng)計產(chǎn)品與服務(wù)解決方案)。SPSS是一個專業(yè)的統(tǒng)計分析軟件。除了基本的統(tǒng)計分析功能之外,還提供非線性回歸、聚類分析(Clustering)、主成份分析(PCA)和基本的時序分析。SPSS在某種程度上可以進行簡單的數(shù)據(jù)挖掘工作,比如K-Means聚類,不過數(shù)據(jù)挖掘的主要工作一般都是使用其自家的Clementine(現(xiàn)已改名為SPSS Modeler)完成。需要提一點的是SPSS Modeler的建模功能非常強大且智能化,同時還可以通過其自身的CLEF(Clementine Extension Framework)框架和Java開發(fā)新的建模插件,擴展性相當(dāng)好,是一個不錯的商業(yè)BI方案。
R:R是一個開源的分析軟件,也是分析能力不亞于SPSS和Matlab等商業(yè)軟件的輕量級(僅指其占用空間極小,功能卻是重量級的)分析工具。官網(wǎng)地址:支持Windows、Linux和Mac OS系統(tǒng),對于用戶來說非常方便。R和Matlab都是通過命令行來進行操作,這一點和適合有編程背景或喜好的數(shù)據(jù)分析人員。R的官方包中已經(jīng)自帶有相當(dāng)豐富的分析命令和函數(shù)以及主要的作圖工具。但R最大的優(yōu)點在于其超強的擴展性,可以通過下載擴展包來擴展其分析功能,并且這些擴展包也是開源的。R社區(qū)擁有一群非常熱心的貢獻(xiàn)者,這使得R的分析功能一直都很豐富。R也是我目前在工作中分析數(shù)據(jù)使用的主力工具。雖然工作中要求用Matlab編程生成結(jié)果,但是實際分析的時候我基本都是用R來做的。因為在語法方面,R比Matlab要更加自然一些。但是R的循環(huán)效率似乎并不是太高。
Matlab:也是一個商業(yè)軟件,從名稱上就可以看出是為數(shù)學(xué)服務(wù)的。Matlab的計算主要基于矩陣。功能上是沒話說,涵蓋了生物統(tǒng)計、信號處理、金融數(shù)據(jù)分析等一系列領(lǐng)域,是一個功能很強大的數(shù)學(xué)計算工具。是的,是數(shù)學(xué)計算工具,這東西的統(tǒng)計功能只不過是它的一部分,這東西體積也不小,吃掉我近3個G的空間。對于我來說,Matlab是一個過于強大的工具,很多功能是用不上的。當(dāng)然,我也才剛剛上手而已,才剛剛搞明白怎么用這個怪物做最簡單的Garch(1,1)模型。但毫無疑問,Matlab基本上能滿足各領(lǐng)域計算方面的需求。
以上這些軟件算是主流了,數(shù)據(jù)分析軟件遠(yuǎn)不止這些,還有Eviews、S-plus等工具,因為沒用過,所以也就不說了
猜你感興趣:
5.實踐報告心得
數(shù)據(jù)報告心得體會
上一篇:樹立憲法意識心得體會
下一篇:數(shù)控維修心得