統計學習方法李航

學識都 人氣:8.82K

李航的《統計學習方法》絕對是乾貨十足的書,可惜實在是太乾了,字字珠璣,幾乎每段話都能當作筆記進行整理。讀起來彷彿在吃加強版的壓縮餅乾,雖然能量十足但未免太難吃了。接下來小編爲你帶來統計學習方法李航,希望對你有幫助。

統計學習方法李航

統計學習方法的三要素

(1)模型

(2)策略

(3)算法

實現統計學習的步驟:

(1)得到用來訓練模型和測試模型的數據集(輸入和輸出(實際值)+需要進行預測的輸入數據)

(2)確定包含所有可能的模型的假設空間(模型的假設空間就是確定的帶參的函數族,之所以說是有無數個是因爲參數的選取相對來說是任意的),就是學習模型的集合

(3)確定怎麼樣在假設空間中的帶參的無限多個函數中間來選取最終模型的準則(就是說應該給予什麼約束來確定最終模型),這種準則就是學習的策略

一般是用代價函數最爲準則(策略)來確定最終模型的。代價函數指的就是帶參的模型的估計值和實際值之間的差距(一般用以度量的代價函數就是平方損失,概率估計等),代價函數的選取就是確定學習的策略,還要加上規範化項(正則項)來約束這個模型(中的權重係數,使得權重係數不至於過大,因爲權重係數過大可能會出現模型的過擬合,過擬合就是模型在訓練樣本中的估計情況比較好但是在測試樣本中的表現就不行了)

(4)有上述第三步確定了是由代價函數和規範化項來約束模型參數的選取的,最優模型當然是約束下的代價函數和規範化項取得最小值時候的參數了,這裏如何求得代價函數和規範化項的最小值的算法就是學習的算法了(學習的意思就是通過算法求解模型的參數)

學習的算法有梯度下降法,正規矩陣求解等多元函數求導方法

(5)通過學習方法(求解係數的算法)來求解最優模型

(6)利用求得的最優模型來對新數據(測試數據或者是需要進行預測的數據)進行模型的檢驗或者是用模型進行預判

監督學習(重點):具有輸出數據(標籤)(可以根據輸入數據和輸出數據的離散還是連續來分爲分類,迴歸和標註)

無監督學習:不具有輸出數據,僅具有輸入數據(一般是聚類分析)

半監督學習:由於標籤的成本比較高,只能給一部分的數據進行標籤操作。

強化學習:是一種自主學習的模式

監督學習:將數據集(輸入數據和輸出標籤)通過統計機器學習來得到輸入數據和輸出數據之間的函數映射(不知道的實際的f是黑盒子,我們要用學習得到的模型去逼近/近似模擬f黑盒子)關係,得到這個模型之後再將這個模型去應用於其他未知標籤的數據的標籤的預測。

監督學習中的一些基本概念:

1)輸入空間,特徵空間和輸出空間

輸入空間:輸入變量xi(x1,x2,...)的所有i對應的x的取值構建起來的集合叫做輸入空間(從形式上來看輸入空間是矩陣形式的

輸出空間:輸出變量yi的所有可能的情況構建起來的集合就叫做輸出空間(從形式上來看輸出空間應該是列向量形式的)

輸入空間和輸出空間可以在同一個空間中,也可以在不同的空間中,通常輸出空間要比輸入空間來的小(就是輸出的情況比輸入的情況來的少)

特徵空間:輸入變量xi(x1,x2,...)中的各個x1,x2,...來表徵xi,這些x1,x2,...就是輸入變量xi對應的屬性/特徵,這些不同的屬性/特徵構建起來的空間就是特徵空間(從形式上來看特徵空間是列向量形式的)

輸入空間就是在特徵空間中的不同取值的集合,列向量(特徵空間)的轉置的列向量組合就是輸入空間的矩陣

一些約定:

1.輸入,輸出變量的所有情況用大寫X,Y表示;

2.輸入,輸出變量的某一種取值狀況用小寫x,y表示

3.變量可以是標量(如輸出變量y)也可以是向量(如輸入向量x)

表示的是輸入空間中的第i個輸入變量,但是這個輸入變量是一個具有多屬性的向量;而x(i)表示的是輸入空間中的第i個屬性/特徵,就是輸入空間的某個屬性列

監督學習的一些細分:

輸入變量x和輸出變量y都是連續的模型叫做迴歸分析

輸入變量爲連續的,輸出變量時離散的情形叫做分類問題

輸入變量和輸出變量都爲離散的叫做標註

2)聯合概率分佈

1.什麼是概率分佈?什麼是聯合概率分佈?

概率分佈p(y|x):指的是練習樣本數據中的一條數據(一個樣本點)的模型估計和實際值之間的取值相等的概率(模型在這個樣本點之上的準確度)

概率分佈指的就是在一定條件下面出現的不同情況的概率的情況

形式有如p(y|x)表示的是在x的情形下發生y的概率。

其中的y|x指的是在隨機變量x(輸入的一個數據)的情形下面發生y的概率

聯合概率分佈P(Y|X):指的是練習樣本數據中的所有數據根據模型計算估計值和實際值全部相等的概率(練習樣本數據集中所有數據輸入後的估計值和實際值一樣的概率當然就是所有的單條數據經過模型估計後的估計值和實際值相等的概率的乘積,當然是將單個的概率分佈做連乘處理,就是採用似然函數來估計總體的情況)(模型在練習數據集上面的準確度)

聯合概率分佈指的是在X的條件下面事件Y發生的概率。

其中的X指的是隨機變量x在輸入空間中的集合,就是在這些輸入空間中的隨機變量共同輸入的情況下事件Y發生的'概率。

似然估計:(總體概率的估計(聯合概率分佈),就是將單個個體的概率的估計(概率分佈)做連乘處理)

由上面可知聯合概率分佈(總體)可以採用似然估計來將概率分佈(個體)相乘的前提就是各個個體服從獨立同分布(各個個體是相互獨立的而且這些個體的概率分佈是相同的)

獨立同分布:

對象是練習數據集中的單條數據

因爲數據集中的元素(一條條的數據)的數據結構是相同的,所以應該是滿足同分布的,但是這些數據獨立嗎???

3)假設空間

假設空間是帶參的模型,是對練習數據集上面的輸入到輸出的映射關係,假設空間的確定意味着模型範圍的確定,就是確定了帶參的函數,接下去的任務就是計算出最優的模型

假設空間中帶參的模型函數的建立

這個模型的對象是練習數據集中的樣本點。因此這個帶參的函數模型如果是概率的話就是概率分佈了

學習的三要素:

模型,策略,算法

模型就是選取合適的帶參的函數(假設空間),有可能是條件概率分佈函數p(y|x)也有可能是決策函數

(1)由決策函數定義的模型叫做非概率模型

(2)由條件概率分佈函數定義的模型叫做概率模型。

策略就是採取何種約束(規則)來計算帶參的函數(模型)(代價函數,規則化項來制約,代價函數和規則化項的選取的不同就是策略的不同(對整體模型的準確性的一種約束,最小二乘法,聯合概率分佈)

非概率模型的損失函數一般是平方損失函數(估計值和實際值之間的差距的平方):對應於損失最小

概率模型的損失函數一般考慮用聯合概率分佈(對條件概率分佈函數來構造似然函數):對應於聯合概率分佈最大

算法就是對策略產生的代價函數和正則項的綜合函數進行最值的計算來使得這個模型的參數最優化(使得代價最小或者是模型的估計值和實際值相等的概率最大),用梯度下降法或者正規矩陣的方法來計算得到最佳參數。