Maxkit: 監督式機器學習方法 Supervised Machine Learning: 生成模型 (Generative Model) 與判別模型 (Discriminative Model)

機器學習是人工智慧的一個分支，讓機器透過某種學習方法，實現並解決人工智慧中的一些問題。機器學習演算法是從資料中自動分析獲得規律，並利用規律對未知資料進行預測的演算法。學習演算法需要用到大量的統計學理論，也被稱為統計學習理論。

Machine Learning 的分類

監督學習：從給定的訓練資料集中學習出一個函式，當新的資料到來時，可以根據這個函式預測結果，訓練資料中的目標是人工標註的。
無監督學習：與監督學習相比，訓練資料沒有人為標註的結果。常見的無監督學習演算法有聚類分析 Cluster Analysis。
半監督學習：介於監督學習與無監督學習之間。
增強學習：通過觀察來學習做成如何的動作。每個動作都會對環境有所影響，學習物件根據觀察到的周圍環境的反饋來做出判斷。

監督式機器學習方法 Supervised Learning

監督式機器學習方法 Supervised Learning 是 Machine Learning 中的一個方法，可以由訓練資料中學到或建立一個模式（函數 / learning model），並依此模式推測新的實例，換句話說，任務就是在觀察完一些訓練範例（輸入和預期輸出）後，利用這個函數去對任何可能出現的輸入的值，預測輸出的結果。

訓練資料是由輸入物件（通常是向量）和期待的輸出所組成。函數的輸出可以是一個連續的值（稱為迴歸分析），或是預測一個分類標籤（稱作分類）。

監督式機器學習方法可以分為生成方法和判別方法兩類，常見的生成方法有混合高斯模型、樸素貝葉斯法和隱形馬爾科夫模型等，常見的判別方法有SVM、LR等，生成方法學習出的是生成模型，判別方法學習出的是判別模型。

生成模型就是能夠隨機生成觀測數據的模型，也就是對影像、聲音以及對現實世界的一切其他實物（representations）進行創造的系統。如果 AI 學會了建立現實世界中的種種細節，例如現實中的圖像和聲音，這將幫助 AI 更好地理解現實世界的結構。

生成模型與判別模型的比較

生成式模型和判別式模型的區別很像人和機器的區別：機器採取的是完美主義，因為它可以不斷優化，追求極致。而人是把事情做得夠好就滿足了。

因為人類的構造天生跟機器不同，所以人類不需要跟 Alpha Go 比賽圍棋分出高下，Alpha Go 只專注在做圍棋這件事，並把它做到極限。

生成模型是所有變量的全機率模型，而判別模型是在給定觀測變量值前提下，觀測目標變量條件機率模型。

生成模型能夠用於模擬（即生成）模型中任意變量的分布情況，而判別模型只能根據觀測變量得到目標變量的樣本。

判別模型不提供觀測變量的分布建模，因此它不能夠表達觀測變量與目標變量之間更複雜的關係。因此，生成模型適用於無監督的任務，如分類和聚類。

由生成模型可以得到判別模型，但由判別模型得不到生成模型。

生成模型收斂速度比較快，如果樣本數量較多時，生成模型能更快地收斂於真實模型。生成模型中的聯合分佈能提供更多的資訊，但也需要更多的樣本和更多計算。

例如我們有一個輸入數據x，然後我們想將它分類為標籤y。最自然的做法就是條件概率分佈p(y|x)，這就是為什麼我們對其直接求p(y|x)方法叫做判別模型演算法。生成模型學習聯合概率分佈p(x,y)，p(x,y)可以通過貝葉斯方法轉化為p(y|x)，然後再用其分類。但是p(x,y)還有其他作用，例如，你可以用它去生成(x,y)。

假設我們有以下(x,y)形式的數據：(1,0), (1,0), (2,0), (2, 1)

那麼p(x,y)是：y 共有四種結果，0,0,0,1，產生的機率分別是 1/4，其中前面兩個 0,0，它的 x 都是 1，所以當 x 為 1，產生出 y 為 0 的機率是 1/4+1/4 = 1/2，不可能產生 y=1 的狀況，所以機率為0。而當 x 為 2，產生出 y 為 0 的機率是 1/4，產生出 y 為 1 的機率也是 1/4。目標是要生成 y，所以生成 y 的所有機率總和為 1。

            y=0   y=1

           -----------

   x=1 | 1/2   0

   x=2 | 1/4   1/4

而p(y|x) 是：因為當 x =1，y 一定為 0，所以在 x 為 1 的基本條件下，y 為 0 的機率為 1，如果 x = 2 的條件下，y 有 0 或 1 兩種可能，發生的機率分別是 1/2。目標是先以 x 為基本條件，在給定 x 之後，得到 y 的機率分佈。

           y=0   y=1

           -----------

    x=1| 1     0

    x=2| 1/2   1/2

如果有某項工作是要識別一個語音屬於哪種語言，有兩種方法達到這個目的：

1、把所有語言先都學會，然後就能識別任何一段新的語音了。

2、不去學習每一種語言，只學習這些語言模型之間的特徵及差別，然後再分類。只要學會了漢語和英語等語言的發音的差別，直接用這樣的差異去分類就好了。

第一種方法就是生成方法，第二種方法是判別方法。

生成算法嘗試去找到底這個數據是怎麼產生的，然後再對一個信號進行分類。基於你的生成假設，那個類別的資料最有可能產生這個信號，這個信號就屬於那個類別。判別模型不關心數據是怎麼生成的，它只關心信號之間的差異，然後用差異來簡單對給定的一個信號進行分類。

生成模型：一般是學習一個代表目標的模型，然後通過它去搜索圖像區域，然後最小化重構誤差。類似於生成模型描述一個目標，然後就是模式匹配了，在圖像中找到和這個模型最匹配的區域，就是目標了。

判別模型：將跟蹤問題看成一個二分類問題，找到目標和背景的決策邊界。它不管目標是怎麼描述的，只知道目標和背景的差異，然後你給一個新的圖像，看它屬於那一邊，就歸為哪一類。

生成式對抗網絡 GenerativeAdverserial Network GAN

有兩個系統，在互相對抗，兩個系統都試圖優化自己的目標函數。第一個系統對應判別式模型D：判別式模型D在試圖識別到來的樣本是否是自然真實的；它在儘量增大對真實樣本的識別率，同時減少對模擬生成的樣本的誤判率。

另一個系統則對應著生成式模型G：G希望它生成的模擬樣本可以在D那裡魚目混珠。所以G試圖最大可能地產生真實的樣本。判別器D從判別角度來說，判別的越好，D的目標實現的就越強大。

但對於生成器G來說，它要最小化（minimize）對方的優化函數，這就相當於最大化（maximize）它自己的優化函數。這個過程就像G和D在下棋一樣。

用一個AI對現實世界的圖像進行創造，再用另一個AI去分析結果並對圖像的真偽進行識別。兩個系統在競爭中不斷成長，最後兩個都達到最佳化。

將二者的關係想像成一個藝術家和一個文藝批評家。作為藝術家，生成模型希望愚弄藝術批評家，讓後者認為它畫出來的東西是真實的。因為藝術批評家努力地將這些畫辨認為假畫，藝術家慢慢學會了如何摹擬那些真的東西，而這原本只靠它自己是做不到的。

References

楊強教授漫談《西部世界》、生成式對抗網絡及遷移學習

機器學習中的貝氏定理：生成模型 (Generative Model) 與判別模型 (Discriminative Model)

生成模型與判別模型

機器學習“判定模型”和“生成模型‘有什麼區別？

GAN誕生記：最火的AI模型，來自一群博士的酒後爭吵

2017/05/22

監督式機器學習方法 Supervised Machine Learning: 生成模型 (Generative Model) 與判別模型 (Discriminative Model)

Machine Learning 的分類

監督式機器學習方法 Supervised Learning

生成模型與判別模型的比較

生成式對抗網絡 GenerativeAdverserial Network GAN

References

沒有留言:

張貼留言