OpenAI は、強化学習のツールキット. このページでは,インストール手順を示す.
謝辞:OpenAI Gym の作者に感謝します
前準備として,Python, Git のインストール: 別ページ »で説明
git の URL: https://git-scm.com/が終わっていること.
Windows での Git のインストール: 別ページ »で説明
【関連する外部ページ】
Git の公式ページ: https://git-scm.com/
Windows での Python 3.10,関連パッケージ,Python 開発環境のインストール: 別ページ »で説明
【サイト内の関連ページ】
Python のまとめ: 別ページ »にまとめ
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
ダウンロードに,gitを用いる.
mkdir c:\pytools cd c:\pytools rmdir /s /q gym git clone https://github.com/openai/gym
※ 「pip install ...」は,Python パッケージをインストールするための操作. Ubuntu でシステム の python3 を使っているときは,「pip install ...」の代わりに「sudo pip3 install ...」のように操作すること.
cd c:\pytools cd gym pip install -e .
バージョン番号が表示されれば OK.下の図とは違うバージョンが表示されることがある.
python -c "import gym; print( gym.__version__ )"
pip install gym[atari]
Python プログラムを実行する
import gym env = gym.make('SpaceInvaders-v0') observation = env.reset() for i_episode in range(20): observation = env.reset() for t in range(100): env.render() print(observation) action = env.action_space.sample() observation, reward, done, info = env.step(action) if done: print("Episode finished after {} timesteps".format(t+1)) break
import gym env = gym.make('CartPole-v0') observation = env.reset() for i_episode in range(20): observation = env.reset() for t in range(100): env.render() print(observation) action = env.action_space.sample() observation, reward, done, info = env.step(action) if done: print("Episode finished after {} timesteps".format(t+1)) break
import gym env = gym.make('Copy-v0') observation = env.reset() for i_episode in range(20): observation = env.reset() for t in range(100): env.render() print(observation) action = env.action_space.sample() # your agent here (this takes random actions) observation, reward, done, info = env.step(action) if done: print("Episode finished after {} timesteps".format(t+1)) break
import gym env = gym.make('FrozenLake-v0') observation = env.reset() for i_episode in range(20): observation = env.reset() for t in range(100): env.render() print(observation) action = env.action_space.sample() # your agent here (this takes random actions) observation, reward, done, info = env.step(action) if done: print("Episode finished after {} timesteps".format(t+1)) break