基于關(guān)聯(lián)規(guī)則的醫(yī)生診療數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)

2014-01-26 11:28 來源:電子信息網(wǎng) 作者:蒲公英

0 引言

數(shù)據(jù)挖掘從20世紀(jì)80年代提出到現(xiàn)在,不過短短20多年的時(shí)間,但其應(yīng)用已非常廣泛,不僅用于科研領(lǐng)域,在商業(yè)領(lǐng)域的應(yīng)用也毫不遜色,尤其是用于銀行、電信、保險(xiǎn)、交通、零售(如超級(jí)市場(chǎng))等領(lǐng)域。數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域的應(yīng)用也有著廣泛的前景。在醫(yī)學(xué)領(lǐng)域存在著大量的數(shù)據(jù),包括病人病史、診斷、檢驗(yàn)、和治療的臨床信息,藥品管理信息,醫(yī)院管理信息等。數(shù)據(jù)挖掘應(yīng)用到醫(yī)學(xué)領(lǐng)域,對(duì)醫(yī)學(xué)數(shù)據(jù)進(jìn)行分析,提取隱含的有價(jià)值的信息能夠促進(jìn)醫(yī)院管理者作出明智決策、醫(yī)生對(duì)病人的正確診斷和治療。這對(duì)促進(jìn)人類健康、保持健康的生活質(zhì)量都有積極的意義。

1 基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)分析

1.1 數(shù)據(jù)挖掘概述

1.1.1 數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識(shí)的過程。這個(gè)定義包含幾層含義,數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的知識(shí),僅需支持特定的發(fā)現(xiàn)問題。

1.1.2 數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘過程一般需要經(jīng)歷數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)開采、結(jié)果表述和解釋三個(gè)主要步驟。

(1)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘中的一個(gè)重要步驟,數(shù)據(jù)準(zhǔn)備是否做好將直接影響到數(shù)據(jù)挖掘的效率、準(zhǔn)確度以及最終模式的有效性。這個(gè)階段又可以進(jìn)一步分為三個(gè)子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。

(2)數(shù)據(jù)開采。數(shù)據(jù)開采階段選定某個(gè)特定的數(shù)據(jù)挖掘算法(如關(guān)聯(lián)規(guī)則、分類、回歸、聚類等算法),用于搜索數(shù)據(jù)中的模式。這是數(shù)據(jù)挖掘過程中最關(guān)鍵的一步,也是技術(shù)難點(diǎn)。

(3)結(jié)果表述和解釋。根據(jù)最終用戶的決策目的,對(duì)提取的信息進(jìn)行分析,把最有價(jià)值的信息區(qū)分出來,并且通過決策支持工具提交給決策者。因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來,還要對(duì)信息進(jìn)行過濾處理。如果不能令決策者滿意,需要重復(fù)以上的數(shù)據(jù)挖掘過程。

1.2 關(guān)聯(lián)規(guī)則概述

給定一個(gè)事務(wù)(交易)數(shù)據(jù)庫(kù),人們往往希望發(fā)現(xiàn)事務(wù)中的關(guān)聯(lián)事實(shí),即事務(wù)中一些項(xiàng)目的出現(xiàn)必定隱含著同次事務(wù)中其他項(xiàng)目的出現(xiàn),這是關(guān)聯(lián)規(guī)則的一個(gè)簡(jiǎn)單的描述。

設(shè)I ={t1,t2 ,-,tm} 是由m 個(gè)不同項(xiàng)目組成的集合,D 是交易數(shù)據(jù)庫(kù)(交易數(shù)據(jù)庫(kù)又稱事務(wù)數(shù)據(jù)庫(kù)),其中每一個(gè)交易或事務(wù)T 是I 中一些項(xiàng)目的集合,即T- I.每一個(gè)交易或事務(wù)T 都與一個(gè)惟一的標(biāo)識(shí)符TID相聯(lián)。

對(duì)于項(xiàng)目集X-I,如果X-T,則交易或事務(wù)T 支持X.

如果X 中有k 個(gè)項(xiàng)目,則又稱X 為k- 項(xiàng)目集,或X 的長(zhǎng)度為k.

關(guān)聯(lián)規(guī)則是指形式如下的一種數(shù)據(jù)隱含關(guān)系:X -Y,其中X - I,Y-I,且X-Y = -.

關(guān)聯(lián)規(guī)則挖掘的任務(wù)是:在給定的交易或事務(wù)數(shù)據(jù)庫(kù)D 中,發(fā)現(xiàn)D 中所有的頻繁關(guān)聯(lián)規(guī)則。所謂頻繁關(guān)聯(lián)規(guī)則是指這些規(guī)則的支持度、置信度分別不低于用戶給定的最小支持度和最小置信度。

1 2 3 > 
數(shù)據(jù)挖掘系統(tǒng)

相關(guān)閱讀

暫無數(shù)據(jù)

一周熱門