HOMEご利用手順商品サンプルご利用規約お支払いご注文進行確認Q&A、お問い合せカートを見る
電気学会 電子図書館
電気学会HPへ
 HOME > 同研究会の論文誌(論文単位) > 文献詳細
*商品について
表紙はついていません(本文のみ中綴じ製本です)。
号単位でも購入できます。
すべてモノクロ印刷です。
Extended Summaryはついていません。

・会員価格 ¥550
・一般価格 ¥770
カートに入れる
こちらはBookPark「電気学会 電子図書館(IEEJ Electronic Library)」による文献紹介ページです。
会員ログイン
電気学会会員の方はこちらから一旦ログインのうえ、マイページからお入りください。
会員価格で購入することができます。
非会員の方はログインの必要はありません。このまま お進みください。
■論文No.
■ページ数 9ページ
■発行日
2020/08/01
■タイトル

複数の上位個体を利用するEvolution Strategyによる深層強化学習におけるパラメータ最適化手法

■タイトル(英語)

A Parameter Optimization Method for Deep Reinforcement Learning by Evolution Strategy Using Multiple Higher-Ranked Individuals

■著者名 土田 喬皓(千葉工業大学大学院情報科学研究科情報科学専攻),山口 智(千葉工業大学情報科学部情報工学科)
■著者名(英語) Takahiro Tsuchida (Graduate School of Information and Computer Science, Chiba Institute of Technology), Satoshi Yamaguchi (Dept. of Computer Science, Chiba Institute of Technology)
■価格 会員 ¥550 一般 ¥770
■書籍種類 論文誌(論文単位)
■グループ名 【C】電子・情報・システム部門
■本誌 電気学会論文誌C(電子・情報・システム部門誌) Vol.140 No.8 (2020) 特集T:社会課題解決に向けた超スマート社会実現技術 特集U:国際会議ICESS 2019
■本誌掲載ページ 1019-1027ページ
■原稿種別 論文/日本語
■電子版へのリンク https://www.jstage.jst.go.jp/article/ieejeiss/140/8/140_1019/_article/-char/ja/
■キーワード 強化学習,進化戦略  reinforcement learning,evolution strategy
■要約(日本語)
■要約(英語) As a parameters optimization method for neural networks which is applied to reinforcement learning, Evolution Strategy has been proposed. In this method, neural network parameters are represented by individuals, like ordinary evolutional strategies. While the evolution, a new individual is generated from some distribution that centered a parameter and is weighted according to the order of reward that the neural network corresponding to the individual obtained. However, there are cased that the differences of reward values among the higher order individuals are so few that the updating can not lead to individuals to higher quality. So, in this research, after updating the normal parameters, we select the top individuals who get high rewards and weight them, and propose a method to update the parameters again using those individuals. By focusing on individuals who get a high reward, it is expected to search for a parameter that can obtain a high score earlier than the conventional method. In the experiment, the conventional method and the proposed method are applied to BipedalWalker which is a learning environment of a 2D biped robot in OpenAI Gym, and evaluation is performed and as a result, the proposed method showed better performance than the conventional method.
■版 型 A4
運営会社についてBookPark個人情報保護方針電気学会ホームページ
本サービスは電気学会がコンテンツワークス株式会社に委託して運営しているサービスです。
©Contents Works Inc.