Added score_metric and loading options

2024-02-13 11:48:24 +01:00 · 2024-02-13 11:48:24 +01:00 · 7eb7228a8c
commit 7eb7228a8c
parent aaaf7a2829
4 changed files with 13 additions and 34 deletions
--- a/args.py
+++ b/args.py
@ -13,7 +13,7 @@ def parse_args():
    parser.add_argument('--no_seed',
                        default=False,
                        action="store_true",
-                        help="Set to True to run without a seed.")
+                        help="Set to run without a seed.")
    parser.add_argument('--seed',
                        type=int,
@ -83,6 +83,11 @@ def parse_args():
                        action="store_true",
                        help="Set flag to disable learning. Useful for viewing trained agents interact in the environment.")
    parser.add_argument('--load',
                        type=int,
                        default=None,
                        help="Run id to load within chkpt_path")
    parser.add_argument('--show_pg',
                        default=False,
                        action="store_true",
--- a/entities/player.py
+++ b/entities/player.py
@ -61,7 +61,7 @@ class Player(pygame.sprite.Sprite):
                    gae_lambda,
                    chkpt_dir,
                    entropy_coef,
-                    no_load=False):
+                    load=None):
        self.max_num_enemies = len(self.distance_direction_from_enemy)
        self.get_current_state()
@ -82,12 +82,12 @@ class Player(pygame.sprite.Sprite):
        print(
            f"\nAgent initialized on player {self.player_id} using {self.agent.actor.device}.")
-        if not no_load:
+        if load:
            print("Attempting to load models ...")
            try:
                self.agent.load_models(
-                    actr_chkpt=f"A{self.player_id}",
+                    actr_chkpt=f"run{load}/A{self.player_id}",
-                    crtc_chkpt=f"C{self.player_id}"
+                    crtc_chkpt=f"run{load}/C{self.player_id}"
                )
                print("Models loaded ...\n")
--- a/main.py
+++ b/main.py
@ -80,7 +80,7 @@ def main():
            gae_lambda=parsed_args.gae_lambda,
            entropy_coef=parsed_args.entropy_coeff,
            chkpt_dir=chkpt_path,
-            no_load=True
+            load=parsed_args.load
        )
    # Episodes start
@ -173,6 +173,8 @@ def main():
        metrics.plot_learning_curve(score_history, parsed_args.n_agents, figure_path)
        metrics.plot_score(score_history, parsed_args.n_agents, figure_path)
        metrics.plot_loss('actor', actor_loss, parsed_args.n_agents, figure_path)
        metrics.plot_loss('critic', critic_loss, parsed_args.n_agents, figure_path)
--- a/utils/metrics.py
+++ b/utils/metrics.py
@ -3,34 +3,6 @@ import numpy as np
 import matplotlib.pyplot as plt
 def generate(parsed_args):
    # Setup parameter monitoring
    score_history = np.zeros(
        shape=(parsed_args.n_agents, parsed_args.n_episodes))
    best_score = np.zeros(parsed_args.n_agents)
    actor_loss = np.zeros(shape=(parsed_args.n_agents,
                                 parsed_args.n_episodes))
    critic_loss = np.zeros(shape=(parsed_args.n_agents,
                                  parsed_args.n_episodes))
    total_loss = np.zeros(shape=(parsed_args.n_agents,
                                 parsed_args.n_episodes))
    entropy = np.zeros(shape=(parsed_args.n_agents,
                              parsed_args.n_episodes))
    advantage = np.zeros(shape=(parsed_args.n_agents,
                                parsed_args.n_episodes))
    return score_history, best_score, actor_loss,
    critic_loss, total_loss, entropy,
    advantage
 def plot_learning_curve(scores, num_players, figure_path):
    plt.figure()