actor critic中文翻譯,actor critic是什么意思,actor critic發(fā)音、用法及例句
- 內容導航:
- 1、actor critic
- 2、6. Actor-Critic算法
1、actor critic
actor critic發(fā)音
英: 美:
actor critic中文意思翻譯
常見(jiàn)釋義:
演員評論家
actor critic雙語(yǔ)使用場(chǎng)景
1、Other career options with this degree include professional actor or dancer, theater manager, storyteller, stunt person, make-up artist, drama critic, and choreographer.───這一學(xué)位的其他就業(yè)選擇包括成為專(zhuān)業(yè)演員或舞者、劇院經(jīng)理、短篇小說(shuō)作家、特技替身演員、化妝師、戲劇評論家和舞蹈指導。
2、His interpretation of psychology involves an "actor," the brain's decision-making center, and a "critic," which continually provides commentary on the actor's decisions.───他的心理學(xué)解釋涉及“演員”,大腦的決策中心,和一個(gè)“評論家”,不斷對演員的決定提供評論。
3、Like a hammy actor," wrote New York Times critic Anthony Tommasini on November 27, Lang Lang "has a penchant for interpretive exaggeration."───就像一位幽默劇演員,”《紐約時(shí)報》的樂(lè )評家安東尼·托馬西尼在11月27日的文章如此寫(xiě)道,朗朗“的演奏具有強烈而夸張的表現意味?!?/p>
actor critic相似詞語(yǔ)短語(yǔ)
1、achondritic───痛風(fēng)性
2、form critic───形式評論家
3、antirachitic───抗佝僂病的
4、art critic───藝術(shù)評論家
5、antarthritic───adj.[藥]抗關(guān)節炎的;n.關(guān)節炎治療劑
6、antiarthritic───adj.抗關(guān)節炎的;n.抗關(guān)節炎藥
7、anthracitic───adj.無(wú)煙煤的;似無(wú)煙煤的
2、6. Actor-Critic算法
本文主要介紹如下幾個(gè)內容:
首先我們還是回顧一下之前提到的REINFORCE算法:
在這個(gè)算法的第二步驟里面我們引入了“reward to go”這一項,該 表示了從當前的時(shí)間步t開(kāi)始,所有的reward的期望之和。
我們可以把這個(gè)由casuality引出的期望稱(chēng)之為“true expected reward-to-go”, 之所以我們這里考慮的是期望,是因為我們在實(shí)際中每個(gè)trajectory采樣出來(lái)都是不一樣的,我們需要把這不同的采樣結果進(jìn)行最后的平均以求期望。
優(yōu)勢函數(Advantage function)
我們在policy gradient的方法中為了降低variance,也考慮過(guò)引入一個(gè)基線(xiàn)來(lái)減少梯度的方差。這里我們更進(jìn)一步一點(diǎn),我們使用 代替原來(lái)的"reward to go",并且使用值函數(V function)去代替原來(lái)的baseline,這樣我們就有了新的估計值,即優(yōu)勢函數。
與原始版本的baseline相比,原來(lái)的估計是無(wú)偏估計,但是在單個(gè)采樣估計中具有很高的方差(variance),現在使用了優(yōu)勢函數之后可以降低方差。他們的比較如下圖:
三個(gè)函數的比較:Q, V and A
在模型擬合的階段,我們需要去評估結果,這個(gè)時(shí)候就要考慮去擬合Q, V 還是A。他們之間是有密切關(guān)系的:
其中對于Q函數他是在已經(jīng)確定了 的情況下,并且已經(jīng)產(chǎn)生了 ,即我們可以寫(xiě)為:
既然他們是有關(guān)系的,那么我們在實(shí)際使用的時(shí)候只需要計算一個(gè)期望函數 .
對于如何去評估一個(gè)Policy是好是壞,我們從 的定義可以知道,強化學(xué)習的目標函數其實(shí)就是這個(gè)值關(guān)于初始狀態(tài) 的期望值。
這里有兩種Monte Carlo的方法來(lái)評估:
第一種是在一個(gè)sample里面累積 reward,第二種還考慮了多個(gè)sample的平均。
我們從上面的第一種簡(jiǎn)單得到 的方法中得到了訓練數據,我們就可以把評估的問(wèn)題轉換成了一個(gè)監督學(xué)習的問(wèn)題:
形式化理解為,我們用同一個(gè)函數去擬合了很多很多的樣本。
上面使用的方法會(huì )有很高的方差,在實(shí)際中我們是用一種近似的方式去減少方差:
這里我們是直接使用了之前的V值( )去近似,然后得到了訓練數據的樣本 ,這種方式稱(chēng)之為bootstrap。
有了前面的基礎,介紹了如何去擬合 ,計算優(yōu)勢函數我們就能夠導出Actor-critic算法,
上面的actor-critic算法里第一步還需要采樣一整個(gè)trajectory。想要變成每次只采樣一個(gè)狀態(tài)就需要先引入Discount factors的概念。
因為值函數V的定義是當前狀態(tài)以后所有反饋值的和,在有限步長(cháng)的任務(wù)中沒(méi)有問(wèn)題,但是如果是一個(gè)無(wú)限步長(cháng)的任務(wù),那么這個(gè)值有可能是無(wú)限大的。因此需要引入一個(gè)折損系數 ,它的意義在于讓離當前狀態(tài)比較近的反饋值更重要,而離得比較遠的可能不那么看重.
上面舉了個(gè)例子,在機器人做操作這種episodic tasks的時(shí)候是有限步長(cháng)的就不需要discount factor,但是另外一種continuous任務(wù),就不需要設定episodic所以這種情況加入discount factor就很重要。
加入了Dicount factor,我們對應的目標函數也變化:
這種情況下MC policy gradients有兩種選擇:
第一種是直接從當前時(shí)間t開(kāi)始加系數 ,而第二種是從最開(kāi)始t=1就開(kāi)始加系數 。然后再通過(guò)利用causasity去掉 之前的反饋值。這樣最終兩種寫(xiě)法的系數還是有一些差別。
一般情況下兩種方式有兩種不同的解釋和應用場(chǎng)景。第二種寫(xiě)法是對應著(zhù)帶有死亡狀態(tài)的MDP形式。系數從第一步就開(kāi)始加入,這就意味著(zhù)這種寫(xiě)法更在意從頭開(kāi)始的動(dòng)作,對于往后的動(dòng)作給的關(guān)注更少。
而第一種寫(xiě)法是從時(shí)刻t開(kāi)始加系數,也就是說(shuō)它會(huì )一直在意從當前時(shí)刻開(kāi)始的動(dòng)作。這種形式一般用在一直連續運動(dòng)的場(chǎng)景里。
第一種寫(xiě)法實(shí)際上不是一個(gè)正確的加了discount factor后的寫(xiě)法。它相當于是對平均反饋值加了一個(gè)系數來(lái)減小方差,它去除掉那些距離太遠的反饋值的影響,因為可能太遠了已經(jīng)沒(méi)有了意義。當然這樣會(huì )是平均反饋的有偏估計。
第一種寫(xiě)法實(shí)際中更常用,也就是作為減小方差的方式。而第二種寫(xiě)法能夠向我們解釋在經(jīng)典的場(chǎng)景里discount factor的意義。
加入了discount factors之后的actor-critic算法可以采用對每個(gè)狀態(tài)進(jìn)行采用的形式,這樣就有了online形式的算法,兩種算法對比如下
在實(shí)際實(shí)現actor-critic算法的時(shí)候可以選擇兩種結構。一種是讓策略函數與值函數分別訓練。這樣做可能比較簡(jiǎn)單而且穩定,但是這樣就不能共享一些提取特征的網(wǎng)絡(luò )層。第二種是兩種函數共享一部分網(wǎng)絡(luò ),這樣就能夠共享前面提取特征的部分。
實(shí)際中如果實(shí)現一個(gè)online形式的算法,最好的做法并不是對每一個(gè)狀態(tài)都做一次更新,而是得到足夠多的樣本里作為一個(gè)batch來(lái)更新。因為這樣能夠減小更新的方差。而實(shí)現這樣的方式也有兩種,一種是同步的一種是異步的。
我們把AC和PG對比一下,AC一般會(huì )因為有critic所以有更低的方差,但是如果critic不好那么他的bias會(huì )很大。PG是沒(méi)有bias的,但是他的方差很高。把他們結合在一起就能產(chǎn)生比較好的unbias,低方差的算法。
之前用到作為baseline的函數一直都是V,實(shí)際上Q也能夠作為baseline。只不過(guò)這樣做實(shí)際上得到的不是一個(gè)advantage函數,在期望上得到一個(gè)期望為0的函數。因為減小了這部分的值,就能夠減小對應部分的方差。
但是期望為0直接帶入得不到目標函數的梯度值,因此計算梯度值的時(shí)候還需要把 以期望的形式修正回來(lái),這樣目標函數梯度值的期望與原來(lái)保持一致
目前我們有兩種得到advantage函數的形式,一種 是bootstrap的,有更低的方差,但是有比較高的偏差。第二種是蒙特卡洛采樣減去估計值的 ,這樣做沒(méi)有偏差,但是方差比較大。因此我們需要想辦法把這兩種結合起來(lái)。
我們可以使用n-step和Eligibility trace的方法來(lái)改善。
使用n-step的直覺(jué)如下圖:
版權聲明: 本站僅提供信息存儲空間服務(wù),旨在傳遞更多信息,不擁有所有權,不承擔相關(guān)法律責任,不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責。如因作品內容、版權和其它問(wèn)題需要同本網(wǎng)聯(lián)系的,請發(fā)送郵件至 舉報,一經(jīng)查實(shí),本站將立刻刪除。