「ITエンジニアのための強化学習理論入門」（初版１刷）正誤表

誤：そして次は、α=1.0の場合です。
正：そして次は、α=0.0の場合です。

誤：極端に小さな値（ $10^{-10}$ ）
正：極端に小さな値（ $-10^{10}$ ）

GitHub 上のコードも修正してあります。

誤：

21:      return 0, s_new, True   # Reward, Next state, Game over
22:    return 1, s_new, False    # Reward, Next state, Game over

正：

21:      return 0, s_new, True   # Reward, Next position, Is game over?
22:    return 1, s_new, False    # Reward, Next position, Is game over?

誤：

16:      a_new = agent.policy[s]

正：

16:      a_new = agent.policy[s_new]

※ この修正に伴い、コードの実行結果が少し変化するため、関連する本文の内容を次のように変更させていただきます。

[変更前]

############
#++++++++++#
#         +#
#######   +#
#         +#
#  ++++++++#
#  + #######
#  +       #
#  +++++++G#
############

　ここでは、ε=0 を指定して、ランダムな行動は混ぜないようにしていますが、最短の経路を学ぶことはできていないようです。先に説明したように、SARSAでは、ランダムな行動が混ざったデータを本来の行動ポリシーに基づいたデータとみなして学習します。そのため、学習結果にこのような変動が発生します。

[変更後]

############
#+++++++   #
#      +   #
#######+   #
#    +++   #
#   ++     #
#   +#######
#   ++     #
#    +++++G#
############

　この例では、うまく最短の経路が学習できているようです。ただし、先に説明したように、SARSAでは、ランダムな行動が混ざったデータを本来の行動ポリシーに基づいたデータとみなして学習するため、もう少し複雑な問題になると、最短経路の学習に失敗する可能性が大きくなります（章末の演習問題２を参照）。

[変更後]

#----------#
#S        G#
#   ####   #
#   ####   #
#          #
#          #
#          #
############

※ SARSA が最短経路の学習に失敗しやすくなるように、迷路の形を変更しました。

[変更後]

#----------#
#+        G#
#+  ####  +#
#+  ####+++#
#++++++++  #
#          #
#          #
############

めもめも