HOMEご利用手順商品サンプルご利用規約お支払いご注文進行確認Q&A、お問い合せカートを見る
電気学会 電子図書館
電気学会HPへ
 HOME > 同研究会の論文誌(論文単位) > 文献詳細
*商品について
表紙はついていません(本文のみ中綴じ製本です)。
号単位でも購入できます。
すべてモノクロ印刷です。
Extended Summaryはついていません。

・会員価格 ¥550
・一般価格 ¥770
カートに入れる
こちらはBookPark「電気学会 電子図書館(IEEJ Electronic Library)」による文献紹介ページです。
会員ログイン
電気学会会員の方はこちらから一旦ログインのうえ、マイページからお入りください。
会員価格で購入することができます。
非会員の方はログインの必要はありません。このまま お進みください。
■論文No.
■ページ数 9ページ
■発行日
2018/07/01
■タイトル

未探索領域を拡大する未探索冒険型Q-learningによる準最短経路獲得

■タイトル(英語)

Discovering Semi Shortest Path using Adventurous Q-learning to Expand Unknown Search Regions

■著者名 河原崎 俊之祐(神奈川大学 工学研究科 経営工学専攻),瀬古沢 照治(神奈川大学 工学部 情報システム創成学科)
■著者名(英語) Shunosuke Kawarasaki (Graduate School of Engineering, Kanagawsa University), Teruji Sekozawa (Graduate School of Engineering, Kanagawsa University)
■価格 会員 ¥550 一般 ¥770
■書籍種類 論文誌(論文単位)
■グループ名 【C】電子・情報・システム部門
■本誌 電気学会論文誌C(電子・情報・システム部門誌) Vol.138 No.7 (2018)特集:平成29年電子・情報・システム部門大会
■本誌掲載ページ 941-949ページ
■原稿種別 論文/日本語
■電子版へのリンク https://www.jstage.jst.go.jp/article/ieejeiss/138/7/138_941/_article/-char/ja/
■キーワード 機械学習,強化学習,Q学習,行動選択,行動履歴  machine learning,reinforcement learning,Q-learning,action select,action history
■要約(日本語)
■要約(英語) Q-learning methods evaluate and update action values using information on rewards obtained. Since the Q value can not be updated until the learning succeeds and the reward is obtained, there is no index for learning, which causes a problem of requiring much time for learning. In cases, the route with no spread in the maze where the probability that learning fails is high is the semi shortest route from the start to the goal, the semi shortest route can not be learned. To learn the optimal actions and discover the semi shortest path, it is essential to experience a large number of unknown states at early stages of the learning process. To this end, in this work we propose unknown-adventure Q-learning, in which agents maintain an action history and adventurously seek out unknown states that have not yet been recorded in this history. When unknown states are present, the agent proceeds boldly and adventurously to search these states without fear of failure. Our unknown-adventure Q-learning experiences large numbers of states at early stages of the learning process, ensuring that actions may be selected in a way that avoids previous failures.This enables a massive acceleration of the learning process in which the number of episodes required to learn a path from start to goal is reduced 100-fold compared to the original Q-learning method. Moreover, our method is capable of discovering the semi shortest-length path through a maze even in cases where that path does not expand through the maze, a case in which learning failures are common and in which the semi shortest path cannot be discovered by methods that use V-filters or action-region valuations to accelerate learning by emphasizing prior knowledge.
■版 型 A4
運営会社についてBookPark個人情報保護方針電気学会ホームページ
本サービスは電気学会がコンテンツワークス株式会社に委託して運営しているサービスです。
©Contents Works Inc.