網友評分: 5分
Matlab貝葉斯網工具箱是一款針對Matlab所推出的神經網絡工具??蓪崿F貝葉斯網絡結構學習、參數學習、推理和構建貝葉斯分類器等,可支持多種節點(概率分布),精確和近似推理,參數和結構學習,靜態和動態模型,免費下載,歡迎體驗。
1引言
在過去十年左右的時間里,已成為一個強大統一的圖形化模型形式主義的統計被廣泛使用,許多概率模型機學習和工程,范圍從混合模型,隱馬爾可夫模型(HMMs)的,從因子分析(PCA):卡爾曼lters。這樣做的原因是以下報價描述[Jor99]:
圖形模型是概率論與數之間的婚姻圖論。他們提供了一個自然的工具用于處理兩個問題 發生在整個應用數學和工程不確定性和復雜性,特別是他們發揮越來越在學習機的設計和分析的重要作用算法。根本的圖形模型的想法是概念模塊化建立一個復雜的系統,結合簡單的部分。概率論相結合,使零件的膠,確保該系統作為一個整體是一致的,和提供方式數據接口模型。圖論方面的圖形模型提供了一個直觀的吸引力接口由人類模型高度相互作用的變量集以及數據結構本身自然高效的設計的通用算法。
圖形模型缺乏相應的通用軟件包。本文介紹了一個企圖建立這樣一個包,稱為貝葉斯網絡工具箱(BNT的)。首先,我們將描述圖形模型表示,推理和學習的過程中出現的一些問題。然后,我們將描述現有軟件套件的方法,通過對這些問題的。最后,我們描述BNT,它克服了現有的包的一些缺點。
假設讀者已經熟悉圖形模型的基礎:例如,見書[Jor02,CDLS99,Edw00,Jor99,Fre98]。
2概述 圖形模型有兩種主要的“方式”:直接的和間接的。這也是可以結合定向和無向圖。我們將依次討論每個。
2.1導演的圖形模型
向無環圖(DAG)的模型,也稱為貝葉斯或信仰網絡,在人工智能界很受歡迎,部分原因是他們本身的因果解釋[Pea00,這使得它們的結構很容易手工設計(如專家系統)。 DAG的模型也有用的時空數據建模和動力系統,因為它們可以編碼\時間之箭“(這種模式是有時也被稱為DBNs,或動態貝葉斯網絡。)
DAG的模型也很受歡迎,在貝葉斯統計的社會,因為參數可以明確表示節點(隨機變量),并賦予分布(普賴厄斯)。生成的圖形,不僅提供了一個簡明的規定陽離子模型,但也可以被利用的計算,例如,由Gibbs抽樣。這是眾所周知的BUGS1包。
一個DAG模型,其中包括決定和實用的節點,以及機會節點,是被稱為一個影響(決定)圖,可用于最優決策。
也有一個圖形化模型,被稱為一個依賴網絡[HCM+00]允許執導周期。它可以是有用的數據可視化,但不總是定義一個獨特的聯合分布:詳情請參閱[HCM+00]。
2.1.1定向型號參數
段參數化,可以定向模型(兩個貝葉斯網絡和依賴網)通過指定所有本地的條件概率分布(草稿),即,分布P(XijPai),其中Xi表示i節點和排它的父母。最包假設所有節點代表離散的隨機變量(分類),另外,除CPDs的是,可以表示為表
表格的CPDs是簡單的代表,學習和使用的推論(見第3.1.1),但缺點是需要的參數是在父母的指數。其他的陳述,只需要一個線性參數的數量,已被提出,包括嘈雜OR[Pea88]和其概括[MH97],后勤(乙狀結腸)函數[Nea92]。
決策樹[BFGK96]可以用來表示一個變量(數據依賴)的CPDs參數的數目;他們也有用的變量(母公司)的選擇內部結構學習算法(見4.2節)。前饋神經網絡(多層感知器,或總綱發展藍圖),條件線性高斯(聯絡小組)廣義線性模型(GLMs)也可以用于連續模式的CPDs節點。
貝葉斯模型,我們需要各種豐富的國家方案文件,例如,Dirichlet先驗多項參數,威沙特(伽瑪)先驗方差/精度參數,以及為權重矩陣的高斯先驗。我們也可以使用非參數分布。
很容易讓用戶NE異國情調的CPDs。 diÆculties出現時,我們希望做相應的模型推斷,和/或當我們試圖了解參數從數據,我們將討論下面這些問題。
2.2無向圖形模式
在無向圖形模式,又稱馬爾可夫網絡,共同物理和計算機視覺的社區。對于實例,伊辛模型和馬爾可夫隨機域(MRFs)電網結構馬爾可夫網絡。在統計社區,無向模型經常被用來模型多路應急表,在這種情況下,他們被稱為(分層)對數線性模型[Edw00]。
2.3混合指示/無向圖形模式
它是可以結合到什么叫做鏈定向和無向圖圖[CDLS99]一個常見的例子是,在圖像處理,其中隱藏節點都連接在一個無向的二維網格,但每個隱藏節點有一個孩子其中包含的像素的觀測值(見圖1)。至于推論是而言,可以從隱藏的像素觀察表示一個定向或無向弧,但是,有向弧表示首選當談到學習(見4.1節)。因子圖形式主義[KFL01]是一個非常普遍的方式,使用圖形結構在當地代表的全球模型(不一定是概率),或因素。
圖1:圖像處理鏈圖。每個陰影節點是一個觀察像素,是由于其隱藏的父(清);相關的隱患彼此,馬爾可夫場與成對潛力隨機建模。這是可能間轉換[YFW01],盡管所有這些陳述有時信息是“丟失”的過程中從圖形結構(此信息將implicitely代表在參數)。這可以等的 計算復雜的推理,以及模型intrepretability。
3推理
由此推斷,我們的意思是計算
其中Xj代表一組觀測變量,Xi代表一組隱藏變量的價值,我們估計感興趣,XK是無關隱藏變量(滋擾)。例如,Xi是否有可能代表疾病我,Xj可能代表觀察到的癥狀。或喜可能代表一個未知參數,Xj的所有數據。有兩種主要的推論:精確和近似。我們同時將討論下面問題。
3.1精確推理
精確推理(有一個封閉的形式解決方案感)是唯一可能一套非常有限的情況下,特別是當所有隱藏節點是離散的,或當所有節點(隱藏和觀察)有線性高斯分布(在其中
情況下,網絡僅僅是一個稀疏的聯合多元高斯參數[SK89,RG99)。專家系統和隱馬爾可夫模型(HMMs)屬于在前一類,而因子分析和卡爾曼lters的屬于后者。
有兩種主要的精確推理算法:只有那些工作DAG的模型,和那些定向和無向圖的工作。 DAG的推理算法利用的規則鏈的分解合資,P(X) = P(X1)P(X2|X1)P(X3|X1;X2) ….基本上是“推產品內的款項”邊緣化無關隱藏的這被稱為節點有效[LD94,Dec96,AM00];變量消除算法。計算結果是一個單一的邊際P(Xi|Xj)。
一般的推理算法是在消息傳遞方面的定義上樹。如果原始圖無向循環(循環),它必須被轉換所謂的交界樹使用三角[Kja90]或割集空調[Dra95]??上蚧驘o向樹,郵件可通過并行 或連續計算的消息可能會或可能不會涉及除法運算。例如,制定了珍珠的的算法Pea88]有分裂; Hugin/ JLO算法的的定向樹[JLO90]制定無向樹與分工;和信念傳播[YFW01]制定無師無向網絡。所有這些算法基本上同等學歷。
消息傳遞算法的優勢時問津在計算所有邊緣人同時(這是必要的學習,例如):他們用動態規劃,以避免重復計算,將參與調用變量消除了n次,一次為每個變量。然而,變量消除是比較容易實現,使某些優化利用特定查詢的知識。
3.1.1電位
實施任何的款項和產品方面的推理算法(例如,變量消除或消息傳遞),它是要代表每個作為一個對象,它支持的操作(方法)總和/本地分布整合,乘法和可選分工。我們將調用這樣一個對象的”潛力”,這僅僅是一個非負的變量在其領域的功能.
如果在域中的所有隨機變量是離散的,我們可以代表一個潛在的作為一個多維數組(表)。如果在域中的所有隨機變量共同高斯,我們可以作為一個多元高斯代表的潛力:簡單存儲的均值,方差和規模因子。如果某些變量是離散和一些有高斯,我們可以代表一個條件高斯的潛力(CG),而不是一個標量的表,這是一個高斯表。最后,如果某些變量是離散隨機變量和一些實用變量是離散的,我們可以表示為一對表的潛力;這是在非常有用
uence圖。所有這些類型的潛力描述[CDLS99];也見[Mur98b]。
CG潛力可以代表NITE高斯混合物。不幸的是,這表示不關閉。也就是說,如果我們有一個潛在域(四),其中D是k的可能值的離散變量,C是一個連續變量,PD(四)仍然是一個k個高斯混合:它尚未得到任何小。故重復的款項和產品的應用將導致代表性的大小炸毀。逼近之一是使用\弱邊緣化“[Lau92]減少使用矩匹配一個單一的高斯混合高斯模型。 (“本實施[Lau92]數值是不穩定的,并已得到改善[LJ99]。)又見Min01]。
無向模型已經參數化潛力,拉幫結派,所以沒有轉換是必要的。導演模型參數的CPDs 但我們不能簡單地定義的潛力∅(Xi;Pai) = P(Xi|Pai)。然而,這是唯一可能的CPDs幾種:有關詳細信息,請參閱第7.2.1。
抽象層次潛力允許我們重復使用相同的代碼許多模型。例如,只需更換與高斯離散潛力相同的代碼的潛力,可以使用,也可以實現向前向后HMM模型或非線性動力學系統的RTS平滑算法[Mur98a]。
3.2近似推理
即使在精確推理是數學可能的情況下,它可能不是計算可行的:推理的成本取決于樹寬W圖(即,規模最大的集團在相應的最佳三角圖)。特別是,如果所有(隱藏)節點是離散的二進制值,推理需要為O(2W)的時間。 (聯合高斯分布,推論總是在最O(N3),其中n是節點的數目,無論對W;然而,有時(例如,在圖像處理中的應用),n是非常大的。)
對于樹木(沒有無向循環圖),樹寬是常數(即最大的風扇(父母),圖中的任何節點),并推斷需要O(n)的時間。然而,對于其他的圖形,特別是那些重復結構,樹寬電網等,隨著變量的數目(例如,在N =毫米網格,樹寬是O(M)=(PN)),并準確推斷往往是不可行的。
有至少有兩個原因之一,可能需要近似推理:要么因為計算精確解時間過長,或因為 是沒有封閉形式(分析)解決方案。 (精確推理被稱為是NP-難一般)。復雜的前一種來自某些種類的圖結構,后者由某些種類的分布。 (在一般情況下,幾乎所有的續隨機變量的分布產生棘手的后驗,完全觀測共軛指數的情況下,是一個值得注意的例外)。下面我們列出一些可以用來處理棘手兩種技術。
采樣(蒙特卡羅)方法。最簡單的一種重要抽樣,我們從中隨機抽樣事先P(x),(無條件)x隱藏變量的分布,然后重量的樣品其的可能性,磷(YJX)的,其中y是證據。一個更多的電子脝cient做法高維被稱為蒙特卡羅馬爾可夫鏈(MCMC),這使得我們從后P(XJY)的樣品,甚至當我們不能計算正常化常數,接收P(下YJX)P(X)。 MCMC方法包括作為特別案件Gibbs抽樣的Metropolis-Hasting算法(如見,[Nea93,GRS96,Mac98])。 MCMC方法是近似的主要方法在貝葉斯統計推斷。 變分方法。最簡單的例子是坡鹿的平均逼近,利用大數定律隨機近似大筆變量的手段。特別是,我們基本上是脫鉤的所有節點,并引進一個新的參數,稱為變分參數,每個節點,并反復更新這些參數,以盡量減少近似真實的概率之間的交叉熵(KL距離)分布。更新變參數進行推理成為代理。平均ELD逼近生產下界上的可能性。更復雜的方法是可能的,給予嚴格的低(上)邊界。教程[JGJS98]。最近,這項技術有被延長做近似貝葉斯推理,使用了
一種叫做變分貝葉斯[GB00]。
信仰的傳播(BP)。這就需要采用消息傳遞算法原始圖,即使它有循環(無向循環)。原本這被認為是不健全的,但優秀的經驗成功 [BGT93],這已被證明可以使用BP算法
[MMC98],導致大量的理論分析,這表明了BP是密切相關的變分方法[YFW01,SO01]最近這項技術已延伸到做近似的貝葉斯推理,使用技術[Min01]稱為期望的傳播。