pneuma-pygame/single-agent.py

import random
import torch as T
import numpy as np
import matplotlib.pyplot as plt

from game import Game
from tqdm import tqdm

from os import environ
environ['PYGAME_HIDE_SUPPORT_PROMPT'] = '1'


np.random.seed(1)
T.manual_seed(1)

n_episodes = 300
game_len = 10000
n_players = 8

figure_file = 'plots/score_sp.png'

game = Game(n_players)

agent = game.level.player_sprites[0].agent

score_history = np.zeros(shape=(game.max_num_players, n_episodes))
best_score = np.zeros(game.max_num_players)
avg_score = np.zeros(game.max_num_players)

for i in tqdm(range(n_episodes)):
    # TODO: Make game.level.reset_map() so we don't __init__ everything all the time (such a waste)
    if i != 0:
        game.level.__init__(n_players, reset=True)
    # TODO: Make game.level.reset_map() so we don't pull out and load the agent every time (There is -definitevly- a better way)

    for player in game.level.player_sprites:
        player.stats.exp = score_history[player.player_id][i-1]
        player.agent = agent

    for j in tqdm(range(game_len)):
        if not game.level.done:

            game.run()
            game.calc_score()

            for player in game.level.player_sprites:
                if player.is_dead():
                    player.kill()

            # if (j == game_len-1 or game.level.done) and game.level.enemy_sprites != []:
            #     for player in game.level.player_sprites:
            #         for enemy in game.level.enemy_sprites:
            #             player.stats.exp *= .95

    for player in game.level.player_sprites:
        exp_points = player.stats.exp
        score_history[player.player_id][i] = exp_points
        avg_score[player.player_id] = np.mean(
            score_history[player.player_id])

    if np.mean(avg_score) > np.mean(best_score):
        print(
            f"\nNew Best score: {np.mean(avg_score)}\
            \nOld Best score: {np.mean(best_score)}"
        )
        best_score = avg_score
        print("Saving models for agent...")
        agent.save_models(
            actr_chkpt="player_actor", crtc_chkpt="player_critic")
        print("Models saved ...\n")
    else:
        print(
            f"Average score of round: {np.mean(avg_score)}\
              \nBest score: {np.mean(best_score)}"
        )


print("\nEpisodes done, saving models...")
agent.save_models(
    actr_chkpt="player_actor", crtc_chkpt="player_critic")
print("Models saved ...\n")

plt.plot(score_history)
plt.savefig(figure_file)
game.quit()

plt.show()
Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`import random`
			`import torch as T`
Update rewared structure (fixed major bugs) 2023-11-23 11:44:23 +00:00			`import numpy as np`
			`import matplotlib.pyplot as plt`

Added more rewards 2023-11-19 03:27:47 +00:00			`from game import Game`
Hopefully implemented PPO 2023-11-17 02:19:03 +00:00			`from tqdm import tqdm`
Reenabled Player and all animations, upgrades, attacks and spells 2023-09-27 18:03:37 +00:00
Added more rewards 2023-11-19 03:27:47 +00:00			`from os import environ`
			`environ['PYGAME_HIDE_SUPPORT_PROMPT'] = '1'`
Reenabled Player and all animations, upgrades, attacks and spells 2023-09-27 18:03:37 +00:00

Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`np.random.seed(1)`
			`T.manual_seed(1)`
Update rewared structure (fixed major bugs) 2023-11-23 11:44:23 +00:00
More time-steps, less episodes 2023-11-25 16:23:15 +00:00			`n_episodes = 300`
			`game_len = 10000`
Randomized player generation location and fixed savesystem for single-agent 2023-11-25 11:47:07 +00:00			`n_players = 8`
Hopefully implemented PPO 2023-11-17 02:19:03 +00:00
Implemented different sp and mp files 2023-11-24 14:31:01 +00:00			`figure_file = 'plots/score_sp.png'`
Hopefully implemented PPO 2023-11-17 02:19:03 +00:00
Randomized player generation location and fixed savesystem for single-agent 2023-11-25 11:47:07 +00:00			`game = Game(n_players)`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00
Updated single-agent.py 2023-11-24 18:33:47 +00:00			`agent = game.level.player_sprites[0].agent`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00
Implemented different sp and mp files 2023-11-24 14:31:01 +00:00			`score_history = np.zeros(shape=(game.max_num_players, n_episodes))`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`best_score = np.zeros(game.max_num_players)`
			`avg_score = np.zeros(game.max_num_players)`

			`for i in tqdm(range(n_episodes)):`
			`# TODO: Make game.level.reset_map() so we don't __init__ everything all the time (such a waste)`
			`if i != 0:`
Randomized player generation location and fixed savesystem for single-agent 2023-11-25 11:47:07 +00:00			`game.level.__init__(n_players, reset=True)`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`# TODO: Make game.level.reset_map() so we don't pull out and load the agent every time (There is -definitevly- a better way)`

Updated single-agent env 2023-11-24 14:40:34 +00:00			`for player in game.level.player_sprites:`
			`player.stats.exp = score_history[player.player_id][i-1]`
Updated single-agent.py 2023-11-24 18:33:47 +00:00			`player.agent = agent`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00
Weird bug showed, added diagnostics 2023-11-24 20:15:50 +00:00			`for j in tqdm(range(game_len)):`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`if not game.level.done:`

			`game.run()`
			`game.calc_score()`
Hopefully implemented PPO 2023-11-17 02:19:03 +00:00
Update rewared structure (fixed major bugs) 2023-11-23 11:44:23 +00:00			`for player in game.level.player_sprites:`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`if player.is_dead():`
			`player.kill()`
Added more rewards 2023-11-19 03:27:47 +00:00
Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`# if (j == game_len-1 or game.level.done) and game.level.enemy_sprites != []:`
			`# for player in game.level.player_sprites:`
			`# for enemy in game.level.enemy_sprites:`
			`# player.stats.exp *= .95`
Update rewared structure (fixed major bugs) 2023-11-23 11:44:23 +00:00
Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`for player in game.level.player_sprites:`
			`exp_points = player.stats.exp`
			`score_history[player.player_id][i] = exp_points`
			`avg_score[player.player_id] = np.mean(`
			`score_history[player.player_id])`
Updated single-agent.py 2023-11-24 18:33:20 +00:00
Implemented different sp and mp files 2023-11-24 14:31:01 +00:00			`if np.mean(avg_score) > np.mean(best_score):`
Randomized player generation location and fixed savesystem for single-agent 2023-11-25 11:47:07 +00:00			`print(`
			`f"\nNew Best score: {np.mean(avg_score)}\`
Improved saving for single-agent 2023-11-25 16:20:43 +00:00			`\nOld Best score: {np.mean(best_score)}"`
			`)`
Implemented different sp and mp files 2023-11-24 14:31:01 +00:00			`best_score = avg_score`
			`print("Saving models for agent...")`
Improved saving for single-agent 2023-11-25 16:20:43 +00:00			`agent.save_models(`
Implemented different sp and mp files 2023-11-24 14:31:01 +00:00			`actr_chkpt="player_actor", crtc_chkpt="player_critic")`
			`print("Models saved ...\n")`
Improved saving for single-agent 2023-11-25 16:20:43 +00:00			`else:`
			`print(`
			`f"Average score of round: {np.mean(avg_score)}\`
			`\nBest score: {np.mean(best_score)}"`
			`)`
Update rewared structure (fixed major bugs) 2023-11-23 11:44:23 +00:00

Randomized player generation location and fixed savesystem for single-agent 2023-11-25 11:47:07 +00:00			`print("\nEpisodes done, saving models...")`
Improved saving for single-agent 2023-11-25 16:20:43 +00:00			`agent.save_models(`
Randomized player generation location and fixed savesystem for single-agent 2023-11-25 11:47:07 +00:00			`actr_chkpt="player_actor", crtc_chkpt="player_critic")`
			`print("Models saved ...\n")`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00
Implemented different sp and mp files 2023-11-24 14:31:01 +00:00			`plt.plot(score_history)`
			`plt.savefig(figure_file)`
Fixed errors for MARL 2023-11-23 15:37:02 +00:00			`game.quit()`

			`plt.show()`