醫(yī)療大數(shù)據(jù)專(zhuān)家：淺談醫(yī)學(xué)大數(shù)據(jù)

2015-03-26 10:06:29 作者：來(lái)源：36氪評(píng)論：0 　點(diǎn)擊：

　　A組數(shù)據(jù)和B組數(shù)據(jù)，在擁有海量的數(shù)據(jù)樣本的情況下，相差已是十萬(wàn)八千里了。圖十顯示了偏差隨樣本量增加的變化情況。在樣本數(shù)量為4236左右，偏差的增加還不明顯。一過(guò)4236，偏差則出現(xiàn)了驚人的增長(zhǎng)。

　　圖十

　　所以依此為判斷的話(huà)，我們可以說(shuō)在數(shù)據(jù)樣本量4000左右，A組和B組比較，差別可能不大。但數(shù)據(jù)樣本量大于4000以后，A組和B組比較，可能就會(huì)相當(dāng)不一樣了。這個(gè)例子充分說(shuō)明了大數(shù)據(jù)相比較小數(shù)據(jù)而言對(duì)數(shù)據(jù)偏差更容易進(jìn)行識(shí)別，從而發(fā)現(xiàn)數(shù)據(jù)收集過(guò)程中的問(wèn)題并加以改善。

　　虛假相關(guān)（spurious correlation）

　　虛假相關(guān)，我們用一個(gè)例子來(lái)加以解釋說(shuō)明。這兒還是以前面提到過(guò)的心血管數(shù)據(jù)為例。現(xiàn)在只收集了200個(gè)記錄，但每條記錄都有100個(gè)各方各面因素的信息。這樣，我們想看是否這100個(gè)因素和“是否有心血管病”相關(guān)。如此，我們進(jìn)行兩兩檢驗(yàn)測(cè)試：是否有心血管病和因素一進(jìn)行檢驗(yàn)，是否有心血管病和因素二進(jìn)行檢驗(yàn)……是否有心血管病和因素一百進(jìn)行檢驗(yàn)。

　　每一個(gè)檢驗(yàn)測(cè)試結(jié)果只會(huì)出現(xiàn)兩種情況：統(tǒng)計(jì)學(xué)上有意義和統(tǒng)計(jì)學(xué)上無(wú)意義。

　　統(tǒng)計(jì)學(xué)上有意義，簡(jiǎn)單來(lái)說(shuō)就是認(rèn)為心血管病和該因素有關(guān)。統(tǒng)計(jì)學(xué)上無(wú)意義就是認(rèn)為心血管病和該因素?zé)o關(guān)。在此過(guò)程中，你可能發(fā)現(xiàn)，大約會(huì)有5次在統(tǒng)計(jì)學(xué)上被認(rèn)為與心血管病相關(guān)的因素，實(shí)際上從常識(shí)和現(xiàn)實(shí)來(lái)判斷是沒(méi)有任何關(guān)聯(lián)的，也就是說(shuō)統(tǒng)計(jì)學(xué)上有意義是錯(cuò)誤的。這就是虛假相關(guān)。

　　為了讓我們能知其然也知其所以然，這兒要解釋一下“統(tǒng)計(jì)學(xué)上有意義”究竟是怎么界定的。一般做檢驗(yàn)測(cè)試時(shí)，我們會(huì)界定一個(gè)值，叫做第一類(lèi)統(tǒng)計(jì)錯(cuò)誤率。這個(gè)錯(cuò)誤率通常被設(shè)定為5%，也就是說(shuō)每100次檢驗(yàn)測(cè)試，我們?cè)试S有5次在統(tǒng)計(jì)學(xué)上實(shí)際無(wú)意義的被錯(cuò)誤判斷為統(tǒng)計(jì)學(xué)上有意義（如果不允許統(tǒng)計(jì)錯(cuò)誤率的存在，那就是100%的正確率，也就是說(shuō)沒(méi)有不確定性的存在。如果有這樣的數(shù)據(jù)，就不需要做任何統(tǒng)計(jì)上的假設(shè)檢驗(yàn)了）。

　　也就是說(shuō)，如果實(shí)際不存在相關(guān)性，我們?cè)试S100次假設(shè)檢驗(yàn)中出現(xiàn)5次錯(cuò)誤相關(guān)。這就是以上例子中出現(xiàn)虛假相關(guān)的原因。在面對(duì)龐大的海量數(shù)據(jù)和超多維度的因素時(shí)，當(dāng)同時(shí)對(duì)一個(gè)數(shù)據(jù)進(jìn)行許多檢驗(yàn)測(cè)試時(shí)，不可避免會(huì)出現(xiàn)虛假相關(guān)。如何處理這個(gè)問(wèn)題，統(tǒng)計(jì)學(xué)上還在做著進(jìn)一步的研究。

　　無(wú)意義顯著性（meaningless significance）

　　還有一種情況我們稱(chēng)為無(wú)意義的顯著性（Lin, Lucas, & Shmueli, 2013）。當(dāng)我們做兩組數(shù)據(jù)的分析比較時(shí)，如果A組，B組各只有1000個(gè)數(shù)據(jù)記錄，我們測(cè)試兩組數(shù)據(jù)的平均值是否一樣，結(jié)果告訴我們統(tǒng)計(jì)學(xué)上無(wú)意義。也就是說(shuō)，這兩組數(shù)據(jù)的平均值無(wú)統(tǒng)計(jì)學(xué)上的差異。但當(dāng)數(shù)據(jù)記錄達(dá)到上萬(wàn)上百萬(wàn)時(shí)，測(cè)試的結(jié)果告訴我們統(tǒng)計(jì)學(xué)上是有意義的了。

　　這又是怎么回事？我們回到源頭上去看，為什么要做兩組數(shù)據(jù)的統(tǒng)計(jì)分析比較？不可以就算出兩組的平均值，比一比他們是否相同嗎？當(dāng)然不可以，因?yàn)槲覀冋嬲Ｍ治霰容^的結(jié)果是能夠反映100%總體數(shù)量數(shù)據(jù)的客觀現(xiàn)象。單純孤立的比較兩組各1000個(gè)記錄的平均值，就是比大小，比出來(lái)的結(jié)論不能推廣到100%總體數(shù)量數(shù)據(jù)的客觀現(xiàn)象上。

　　但這兩組數(shù)據(jù)等同于100%總體數(shù)量數(shù)據(jù)嗎？當(dāng)然不是，就算是海量的大數(shù)據(jù)也并不能100%等同于總體數(shù)量數(shù)據(jù)。這樣我們分析總結(jié)出的這兩組數(shù)據(jù)的一些統(tǒng)計(jì)指標(biāo)就會(huì)和總體數(shù)量數(shù)據(jù)的統(tǒng)計(jì)指標(biāo)有一定的偏差。這個(gè)偏差一般有一個(gè)下限和上限，我們稱(chēng)為置信區(qū)間。真實(shí)的總體數(shù)量數(shù)據(jù)的統(tǒng)計(jì)指標(biāo)就落在樣本數(shù)據(jù)統(tǒng)計(jì)指標(biāo)的左邊或右邊的一定范圍內(nèi)（置信區(qū)間）。

　　好了，我們實(shí)際要看的是A組總體數(shù)量數(shù)據(jù)和B組總體數(shù)量數(shù)據(jù)在平均值上是否一樣，換種說(shuō)法就是A組總體數(shù)量數(shù)據(jù)平均值減B組總體數(shù)量數(shù)據(jù)平均值是否等于零�，F(xiàn)在我們只有A組樣本數(shù)量數(shù)據(jù)平均值和B組樣本數(shù)量數(shù)據(jù)平均值，表達(dá)符號(hào)就是和。要看的就是A組樣本數(shù)量數(shù)據(jù)平均值減B組樣本數(shù)量數(shù)據(jù)平均值的差值是否等于0：但我們已經(jīng)知道由于樣本均分差的存在，樣本平均值相減的差值不一定是零，而且這個(gè)差值有一定的置信區(qū)間。

　　那么我們實(shí)際上更精確的說(shuō)是看0是否落在樣本差值的置信區(qū)間內(nèi)（置信區(qū)間的上限和下限和上面提到的第一統(tǒng)計(jì)錯(cuò)誤率是相一致的，有一個(gè)5%的概念在里面，這兒就不詳細(xì)介紹了。反正是否落在置信區(qū)間里否也可以用來(lái)判斷統(tǒng)計(jì)學(xué)上是有意義還是沒(méi)有意義）。落在里面我們就說(shuō)是統(tǒng)計(jì)學(xué)上是沒(méi)有意義的也就是兩組數(shù)據(jù)的平均值是一樣。不落在里面我們就說(shuō)是統(tǒng)計(jì)學(xué)上是有意義的也就是兩組數(shù)據(jù)的平均值不一樣。如圖十一所示：

　　圖十一

　　那為什么在樣本數(shù)據(jù)量為1000和上萬(wàn)上百萬(wàn)的情況下結(jié)果會(huì)不一樣。這兒我們進(jìn)一步要講的就是樣本數(shù)量和置信區(qū)間之間的關(guān)系了。隨著樣本數(shù)量的增加，樣本差值會(huì)和真實(shí)的總體數(shù)據(jù)差值接近（不一定就是0哦），同時(shí)不確定性會(huì)減小，置信區(qū)間會(huì)縮短，其實(shí)就是估計(jì)的差值越來(lái)越精準(zhǔn)了。這種情況下，就算樣本差值是非常接近0的一個(gè)數(shù)（就是說(shuō)我們都覺(jué)得兩組數(shù)據(jù)的平均值是一樣的了），但是由于置信區(qū)間的縮小，0仍舊會(huì)落在置信區(qū)間的外面（如圖十一，下部分2所示）。

　　這樣一來(lái)，結(jié)果就會(huì)是統(tǒng)計(jì)學(xué)上是有意義的：兩組數(shù)據(jù)的平均值是不一樣的�，F(xiàn)有的統(tǒng)計(jì)方法運(yùn)用在大數(shù)據(jù)時(shí)會(huì)帶來(lái)這樣的一種錯(cuò)誤信息。這是因?yàn)楝F(xiàn)有的傳統(tǒng)統(tǒng)計(jì)方法是針對(duì)小數(shù)據(jù)的，在被提出的時(shí)候，還沒(méi)有面對(duì)過(guò)或想到數(shù)據(jù)量可以如此龐大。如何解決如何改進(jìn)由于這樣的數(shù)據(jù)特性帶來(lái)的問(wèn)題，我們還在研究的路上。

　　羊群效應(yīng)（herding effect）

　　大數(shù)據(jù)時(shí)代，我們的社會(huì)已經(jīng)在越來(lái)越多的把個(gè)人的觀點(diǎn)數(shù)字化，匯總化，并依賴(lài)于此做出決策（比如根據(jù)收集到的評(píng)分來(lái)進(jìn)行產(chǎn)品或服務(wù)的推薦）。這一現(xiàn)象在醫(yī)療界也漸漸的變的普遍起來(lái)。好多輔助醫(yī)療應(yīng)用軟件在移動(dòng)平臺(tái)上都會(huì)有使用者的評(píng)分，人們會(huì)根據(jù)評(píng)分來(lái)選擇是否使用一下。某些醫(yī)療網(wǎng)絡(luò)平臺(tái)推出的服務(wù)，比如網(wǎng)絡(luò)問(wèn)診，使用者也可以對(duì)提供服務(wù)的醫(yī)療人員進(jìn)行滿(mǎn)意度的評(píng)分，進(jìn)而影響他人決定是否選擇此醫(yī)療人員來(lái)進(jìn)行問(wèn)診咨詢(xún)。

　　利用這種“眾人的智慧”的一個(gè)關(guān)鍵要求是個(gè)人意見(jiàn)的獨(dú)立性。然而，在現(xiàn)實(shí)的世界中，匯總收集的集體意見(jiàn)卻很少是由互不相干的獨(dú)立的個(gè)體意見(jiàn)所組成的。最近的實(shí)驗(yàn)研究證明先前已經(jīng)存在的收集到的意見(jiàn)會(huì)歪曲隨后個(gè)人的決策還有對(duì)質(zhì)量及價(jià)值的認(rèn)知。凸顯出了一個(gè)根本的差異既：我們從集體意見(jiàn)感知到的價(jià)值和產(chǎn)品本身固有的價(jià)值之間的差異。

　　產(chǎn)生這種差異的原因在于“羊群效應(yīng)” 。羊群效應(yīng)簡(jiǎn)單的描述就是個(gè)體的從眾跟風(fēng)心理和行為。羊群是一種很散亂的組織，平時(shí)在一起也是盲目地左沖右撞，但一旦有一只頭羊動(dòng)起來(lái)，其他的羊也會(huì)不假思索地一哄而上，全然不顧前面可能有狼或者不遠(yuǎn)處有更好的草。因此，“羊群效應(yīng)”就是比喻一種從眾效應(yīng)，很容易導(dǎo)致盲從，而盲從往往會(huì)陷入認(rèn)知偏差，決策偏差。

　　IBM Watson 研究中心（Wang & Wang, 2014）使用大規(guī)�？v向的客戶(hù)評(píng)分?jǐn)?shù)據(jù)集（亞馬遜的）并建立統(tǒng)計(jì)模型演示了評(píng)分和意見(jiàn)的產(chǎn)生不是獨(dú)立，均勻的過(guò)程，而是創(chuàng)建了一個(gè)環(huán)境進(jìn)而影響以后評(píng)分或意見(jiàn)的產(chǎn)生。體現(xiàn)在這種社會(huì)化的客戶(hù)評(píng)分系統(tǒng)中的“羊群效應(yīng)”具體表現(xiàn)為：高評(píng)分傾向于產(chǎn)生新的高評(píng)分同時(shí)抑制低評(píng)分的產(chǎn)生。

　　接下來(lái)的問(wèn)題就是：什么是真實(shí)的符合產(chǎn)品真正質(zhì)量的評(píng)分如果我們能把“羊群效應(yīng)”給剔除出去的話(huà)？應(yīng)用 IBM Watson 研究中心建立的統(tǒng)計(jì)模型能夠部分回答這個(gè)問(wèn)題。他們對(duì)亞馬遜的四類(lèi)產(chǎn)品數(shù)據(jù)（書(shū)籍，電子產(chǎn)品，電影電視，和音樂(lè)）進(jìn)行了內(nèi)在評(píng)分（剔出“羊群效應(yīng)”）和外在（沒(méi)有剔出“羊群效應(yīng)”）測(cè)試。所有四個(gè)類(lèi)別，50％以上的產(chǎn)品評(píng)分的差異大于0.5。這個(gè)差異，說(shuō)明我們從集體評(píng)分中得來(lái)的感知和產(chǎn)品的真實(shí)價(jià)值之間存在著顯著的差異。

　　再深一步，鑒于產(chǎn)品現(xiàn)在的評(píng)分，如果我們施加一定的人為操縱，“羊群效應(yīng)”會(huì)如何影響今后的評(píng)分？這樣的預(yù)測(cè)分析對(duì)于很多領(lǐng)域都是相當(dāng)有價(jià)值的，包括市場(chǎng)盈利估計(jì)，預(yù)算廣告和欺詐操縱檢測(cè)等。例如，在決定是否對(duì)以產(chǎn)品進(jìn)行促銷(xiāo)活動(dòng)之前，市場(chǎng)分析師可能希望估計(jì)由于推廣而出現(xiàn)的短期高評(píng)分對(duì)產(chǎn)品的長(zhǎng)期影響。

　　研究中心通過(guò)對(duì)兩類(lèi)產(chǎn)品（電影電視，和音樂(lè)）插入50個(gè)人為5星級(jí)的評(píng)分，預(yù)測(cè)到雖然這兩種產(chǎn)品在受歡迎程度上遇到類(lèi)似的短期高評(píng)分，從長(zhǎng)遠(yuǎn)來(lái)看，推廣對(duì)于電影及電視類(lèi)產(chǎn)品有著更持久的影響（高評(píng)分消減的更慢）。這對(duì)于市場(chǎng)分析的決策提供了很有價(jià)值的情報(bào)。

　　此類(lèi)大數(shù)據(jù)中的“羊群效應(yīng)”可以通過(guò)適當(dāng)?shù)慕y(tǒng)計(jì)方法加以消除，利用，以產(chǎn)生更有價(jià)值的信息用于決策分析中。

　　以上的各個(gè)例子充分說(shuō)明了在大數(shù)據(jù)時(shí)代，雖然數(shù)據(jù)庫(kù)等操作建立需要專(zhuān)業(yè)計(jì)算機(jī)人才的貢獻(xiàn)，統(tǒng)計(jì)專(zhuān)業(yè)人員的參與也是必不可少的。數(shù)據(jù)的管理分析并不僅僅是提取，檢索，簡(jiǎn)單匯總，總結(jié)。數(shù)據(jù)本身的復(fù)雜性，使得分析的過(guò)程中充滿(mǎn)了種種陷阱，誤區(qū)。沒(méi)有一定統(tǒng)計(jì)方面的理論知識(shí)結(jié)構(gòu)，就會(huì)出現(xiàn)分析上的偏差，或者低效率的數(shù)據(jù)利用。在計(jì)算機(jī)算法的基礎(chǔ)上去學(xué)習(xí)認(rèn)識(shí)數(shù)據(jù)統(tǒng)計(jì)的性質(zhì)，把算法和統(tǒng)計(jì)分析結(jié)合起來(lái)是未來(lái)大數(shù)據(jù)分析的一個(gè)主要方向。

　　結(jié)論和展望

　　本文浮光掠影地講述了什么是大數(shù)據(jù)，有選擇性地描述了大數(shù)據(jù)的一些特性，醫(yī)療大數(shù)據(jù)及其在北美醫(yī)療系統(tǒng)中的現(xiàn)況，揭示了大數(shù)據(jù)分析將會(huì)對(duì)醫(yī)療衛(wèi)生保健領(lǐng)域帶來(lái)巨大的影響和沖擊。大數(shù)據(jù)通過(guò)對(duì)臨床及其他數(shù)據(jù)存儲(chǔ)庫(kù)進(jìn)行數(shù)據(jù)管理和分析獲得前所未有的洞察力并依此做出更明智的決策。

　　在不久的將來(lái)，大數(shù)據(jù)分析的應(yīng)用將會(huì)快速，廣泛的涌現(xiàn)在整個(gè)醫(yī)療保健機(jī)構(gòu)和醫(yī)療保健行業(yè)。本文描述的數(shù)據(jù)管理框架，數(shù)據(jù)統(tǒng)計(jì)分析揭示了大數(shù)據(jù)的有效應(yīng)用是一個(gè)系統(tǒng)性的工程，需要一系列專(zhuān)業(yè)技能來(lái)保證大數(shù)據(jù)分析的成功，包括：處理，整合，分析復(fù)雜的數(shù)據(jù)并能幫助客戶(hù)充分了解數(shù)據(jù)分析的結(jié)果。要做到這些需要多方面的專(zhuān)業(yè)技能及特質(zhì)，包括：

計(jì)算機(jī)科學(xué)/數(shù)據(jù)開(kāi)發(fā)的專(zhuān)業(yè)技能：扎實(shí)的計(jì)算機(jī)科學(xué)基礎(chǔ)及運(yùn)用能力，明了大數(shù)據(jù)的基礎(chǔ)框架設(shè)施。
分析和建模能力：在了解數(shù)據(jù)的基礎(chǔ)上迅速分析并建立有效的統(tǒng)計(jì)模型。這不僅需要扎實(shí)的統(tǒng)計(jì)學(xué)，還需要有敏銳的思考和洞察力。
好奇心和創(chuàng)意的思考能力：這需要對(duì)數(shù)據(jù)有著一種渴望激情，善于全面敏銳的思考并挖掘問(wèn)題。一些機(jī)構(gòu)尋找人才就是看誰(shuí)能在討論數(shù)據(jù)時(shí)能夠靈光一現(xiàn)。
突出的交流能力：整合數(shù)據(jù)和結(jié)果的分析報(bào)告，能清晰明了的用非專(zhuān)業(yè)語(yǔ)言幫助客戶(hù)或公眾正確理解數(shù)據(jù)分析結(jié)果并做出決定。

　　當(dāng)然，我們很難找到一個(gè)人才具有以上所有技能，但通過(guò)團(tuán)隊(duì)分工合作建立起高效的大數(shù)據(jù)小組是目前可行的方向。從而，在這個(gè)大數(shù)據(jù)分析變得更加主流的時(shí)代，把握時(shí)機(jī)，脫穎而出或百尺竿頭，更進(jìn)一步。

　　關(guān)于作者

　　本文作者陳遵秋，美國(guó)俄勒岡州，健康科技大學(xué)，公共衛(wèi)生預(yù)防系，美國(guó)統(tǒng)計(jì)協(xié)會(huì)認(rèn)證統(tǒng)計(jì)分析師；陳漪伊，美國(guó)俄勒岡州，健康科技大學(xué)，公共衛(wèi)生預(yù)防系，生物統(tǒng)計(jì)助理教授（交流微信號(hào)：2823095726）。

　　陳遵秋和陳漪伊夫婦是美籍華人，現(xiàn)在美國(guó)定居。其二人是目前研究醫(yī)療大數(shù)據(jù)及生物樣本大數(shù)據(jù)真正的專(zhuān)家�，F(xiàn)將兩位的文章進(jìn)行公開(kāi)發(fā)表，與大家一起探討。

上一頁(yè) 1 2 3 4 5 6 下一頁(yè)

相關(guān)熱詞搜索：醫(yī)學(xué)大數(shù)據(jù) 大數(shù)據(jù)

上一篇:M-ICT時(shí)代“不等待”，中興14年凈利翻番

下一篇:最后一頁(yè)

相關(guān)閱讀：