丁香五月天婷婷开心久久,国产成人亚洲综合无码aⅴ,羞羞漫画官方页面弹窗,免费国产黄频在线观看视频,无遮挡h肉3d动漫在线观看

數(shù)據(jù)分析過(guò)程中哪個(gè)步驟花費(fèi)的時(shí)間最多?

  《R語(yǔ)言實(shí)戰(zhàn)第二版》的作者卡巴科弗曾經(jīng)感嘆:“數(shù)據(jù)分析師在數(shù)據(jù)預(yù)處理上花費(fèi)了60%的時(shí)間”。我們所知道的建模,評(píng)估模型等數(shù)據(jù)分析工作所花費(fèi)的時(shí)間遠(yuǎn)遠(yuǎn)沒有數(shù)據(jù)預(yù)處理的多??梢哉f(shuō)沒有高質(zhì)量的數(shù)據(jù)就沒有高質(zhì)量的分析結(jié)果。

  再漂亮的可視化,沒有準(zhǔn)確的數(shù)據(jù)支撐,也是空中樓閣。不光是可視化,基于數(shù)據(jù)的分析,模型,支撐風(fēng)控、營(yíng)銷和運(yùn)營(yíng),在缺少數(shù)據(jù)質(zhì)量支撐的前提下幾乎都無(wú)從談起。

  數(shù)據(jù)預(yù)處理一方面是為了提高數(shù)據(jù)的質(zhì)量,另一方面也是為了適應(yīng)所做數(shù)據(jù)分析的軟件或者方法。一般來(lái)說(shuō)數(shù)據(jù)預(yù)處理步驟有數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約,每個(gè)大步驟又有一些小的細(xì)分點(diǎn),當(dāng)然了,這四個(gè)大步驟在做數(shù)據(jù)預(yù)處理時(shí)未必都要執(zhí)行。

  01

  數(shù)據(jù)清洗

  數(shù)據(jù)清洗,顧名思義,“黑”的變成“白”的,“臟”的數(shù)據(jù)變成“干凈”的,一般來(lái)說(shuō),臟數(shù)據(jù)就是數(shù)據(jù)分析中數(shù)據(jù)存在亂碼,無(wú)意義的字符,以及含有噪音的數(shù)據(jù)。

  臟數(shù)據(jù)具體表現(xiàn)在形式上和內(nèi)容上的臟,形式上的臟數(shù)據(jù)有缺失值、帶有特殊符號(hào)的數(shù)據(jù),內(nèi)容上的臟數(shù)據(jù)上有異常值。

  那么什么是缺失值呢?

  缺失值包括缺失值的識(shí)別和缺失值的處理。缺失值的產(chǎn)生原因很多,包括忽略元組、人工填寫遺漏值、使用一個(gè)全局常量填充遺漏值、使用屬性的平均值填充遺漏值、使用與給定元組屬同一類的所有樣本的平均值、使用最可能的值填充遺漏值(利用決策樹、回歸、貝葉斯等算法)等。

  在數(shù)據(jù)缺失嚴(yán)重時(shí),會(huì)對(duì)分析結(jié)果造成較大影響,因此對(duì)剔除的異常值以及缺失值,要采用合理的方法進(jìn)行填補(bǔ),常見的方法有平均值填充法、K最近距離法、回歸法、極大似線估計(jì)法等。

  1、平均值填充法

  取所有對(duì)象(或與該對(duì)象具有相同決策屬性值的對(duì)象)的平均值來(lái)填充該缺失的屬性值。

  2、K最近距離法

  先根據(jù)歐式距離或相關(guān)分析確定距離缺失數(shù)據(jù)樣本最近的K個(gè)樣本,將這K個(gè)值加權(quán)平均來(lái)估計(jì)缺失數(shù)據(jù)值。

  3、回歸法

  基于完整的數(shù)據(jù)集,建立回歸方程(模型),對(duì)于包含空值的對(duì)象,將已知屬性值代入方程來(lái)估計(jì)未知屬性值,以此估計(jì)值來(lái)進(jìn)行填充;但當(dāng)變量不是線性相關(guān)或預(yù)測(cè)變量高度相關(guān)時(shí)會(huì)導(dǎo)致估計(jì)偏差。

  4、期望值最大化方法(EM)

  EM算法是一種在不完全數(shù)據(jù)情況下計(jì)算極大似然估計(jì)或者后驗(yàn)分布的迭代算法。

  在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計(jì)的情況下計(jì)算完全數(shù)據(jù)對(duì)應(yīng)的對(duì)數(shù)似然函數(shù)的條件期望(E步),后用極大化對(duì)數(shù)似然函數(shù)以確定參數(shù)的值,并用于下步的迭代(M步)。

  5、多重插補(bǔ)法

  由包含m個(gè)插補(bǔ)值的向量代替每一個(gè)缺失值,然后對(duì)新產(chǎn)生的m個(gè)數(shù)據(jù)集使用相同的方法處理,得到處理結(jié)果后,綜合結(jié)果,最終得到對(duì)目標(biāo)變量的估計(jì)。

  異常值也是需要處理的,那么什么是異常值呢?

  異常值跟缺失值一樣,包括異常值的識(shí)別和異常值的處理。異常值的識(shí)別有兩種方法:物理判別法和統(tǒng)計(jì)判別法。

  1、物理判別法

  根據(jù)人們對(duì)客觀事物、業(yè)務(wù)等已有的認(rèn)識(shí),判別由于外界干擾、人為誤差等原因造成實(shí)測(cè)數(shù)據(jù)偏離正常結(jié)果,判斷異常值。

  2、統(tǒng)計(jì)判別法

  給定一個(gè)置信概率,并確定一個(gè)置信限,凡超過(guò)此限的誤差,就認(rèn)為它不屬于隨機(jī)誤差范圍,將其視為異常值。常用的方法有拉依達(dá)準(zhǔn)則、肖維勒準(zhǔn)則、格拉布斯準(zhǔn)則、狄克遜準(zhǔn)則、t檢驗(yàn)。

  異常值的處理有刪除含有異常值的觀測(cè)、當(dāng)作缺失值、平均值修正、不處理。

  在進(jìn)行異常值處理時(shí)要先復(fù)習(xí)異常值出現(xiàn)的可能原因,再判斷異常值是否應(yīng)該舍棄。

  隨著數(shù)據(jù)量的增大,異常值和缺失值對(duì)整體分析結(jié)果的影響會(huì)逐漸變小,因此在“大數(shù)據(jù)”模式下,數(shù)據(jù)清洗可忽略異常值和缺失值的影響,而側(cè)重對(duì)數(shù)據(jù)結(jié)構(gòu)合理性的分析。

  02

  數(shù)據(jù)集成

  數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并放到一個(gè)數(shù)據(jù)存儲(chǔ)中,當(dāng)然如果所分析的數(shù)據(jù)原本就在一個(gè)數(shù)據(jù)存儲(chǔ)里就不需要數(shù)據(jù)的集成了。

  一般來(lái)說(shuō),數(shù)據(jù)集成的實(shí)現(xiàn)是將兩個(gè)數(shù)據(jù)框以關(guān)鍵字為依據(jù),在進(jìn)行數(shù)據(jù)集成時(shí)可能會(huì)出現(xiàn)幾種情況:

  一個(gè)數(shù)據(jù)代表著兩個(gè)不同的意思

  兩個(gè)不同的數(shù)據(jù)代表一個(gè)意思

  數(shù)據(jù)的重復(fù)出現(xiàn)

  這三個(gè)數(shù)據(jù)使得數(shù)據(jù)分析工作變得十分繁瑣,從而影響數(shù)據(jù)分析的準(zhǔn)確性,這就需要我們對(duì)于數(shù)據(jù)進(jìn)行集成的工作。

  03

  數(shù)據(jù)變換

  數(shù)據(jù)的變換就是把數(shù)據(jù)轉(zhuǎn)化成適當(dāng)?shù)男问剑瑏?lái)滿足軟件或分析理論的需要。

  一般我們可以通過(guò)簡(jiǎn)單的函數(shù)變換進(jìn)行數(shù)據(jù)變換,什么是簡(jiǎn)單的函數(shù)變換呢?簡(jiǎn)單函數(shù)變換用來(lái)將不具有正態(tài)分布的數(shù)據(jù)變成有正態(tài)分布的數(shù)據(jù)。

  04

  數(shù)據(jù)規(guī)約

  數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量。

  數(shù)據(jù)歸約主要有兩個(gè)途徑:屬性選擇和數(shù)據(jù)采樣,分別針對(duì)原始數(shù)據(jù)集中的屬性和記錄。

  假定在公司的數(shù)據(jù)倉(cāng)庫(kù)選擇了數(shù)據(jù)用于分析,這樣數(shù)據(jù)集將非常大。在海量數(shù)據(jù)上進(jìn)行復(fù)雜的數(shù)據(jù)分析扣挖掘?qū)⑿枰荛L(zhǎng)時(shí)間,使得這種分析不現(xiàn)實(shí)或不可行。

  數(shù)據(jù)歸約技術(shù)可以用來(lái)得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近地保持原數(shù)據(jù)的完整性。這樣,在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行?,并產(chǎn)生相同(或幾乎相同)的分析結(jié)果。

  數(shù)據(jù)歸約的策略有:

  數(shù)據(jù)立方體聚集:聚集操作用于數(shù)據(jù)方中的數(shù)據(jù)。

  維歸約:可以檢測(cè)并刪除不相關(guān)、弱相關(guān)或冗余的屬性或維。

  數(shù)據(jù)壓縮:使用編碼機(jī)制壓縮數(shù)據(jù)集。

  數(shù)值歸約:用替代的、較小的數(shù)據(jù)表示替換或估計(jì)數(shù)據(jù),如參數(shù)模型(只需要存放校型參數(shù),而不是實(shí)際數(shù)據(jù))或非參數(shù)方法,如聚類、選樣和使用直方圖。

  離散化和概念分層生產(chǎn):屬性的原始值用區(qū)間值或較高層的概念替換,概念分層允許挖掘多個(gè)抽象層上的數(shù)據(jù),是數(shù)據(jù)挖掘的一種強(qiáng)有力的工具。

途傲科技為中小企業(yè)提供網(wǎng)站制作、網(wǎng)站建設(shè)、微信H5、微信小程序,多商戶平臺(tái),多級(jí)分銷系統(tǒng),APP開發(fā),手機(jī)網(wǎng)站,HTML5多端自適應(yīng)網(wǎng)站,營(yíng)銷型企業(yè)站建設(shè),及對(duì)技術(shù)人才的培養(yǎng)等都積累與沉淀了豐富的心得和實(shí)戰(zhàn)經(jīng)驗(yàn)。

如果您有想法,可以將需求提交給我們【免費(fèi)提交需求,獲取解決方案】

免責(zé)聲明:文章部分內(nèi)容收集于互聯(lián)網(wǎng),不代表本站的觀點(diǎn)和立場(chǎng),如有侵權(quán)請(qǐng)聯(lián)系刪除。

發(fā)表回復(fù)

在線客服
途傲科技
快速發(fā)布需求,坐等商家報(bào)價(jià)
2025-07-10 10:26:31
您好!歡迎來(lái)到途傲科技。我們?yōu)槠髽I(yè)提供數(shù)字化轉(zhuǎn)型方案,可提供軟件定制開發(fā)、APP開發(fā)(Android/iOS/HarmonyOS)、微信相關(guān)開發(fā)、ERP/OA/CRM開發(fā)、數(shù)字孿生BIM/GIS開發(fā)等。為了節(jié)省您的時(shí)間,您可以留下姓名,手機(jī)號(hào)(或微信號(hào)),產(chǎn)品經(jīng)理稍后聯(lián)系您,免費(fèi)幫您出方案和預(yù)算! 全國(guó)咨詢專線:18678836968(同微信號(hào))。
??點(diǎn)聯(lián)??
您的留言我們已經(jīng)收到,現(xiàn)在添加運(yùn)營(yíng)微信,我們將會(huì)盡快跟您聯(lián)系!
[運(yùn)營(yíng)電話]
18678836968
取消

選擇聊天工具: