​Python人工智慧在貪吃蛇遊戲中的運用與探索(下)

  • 2020 年 4 月 10 日
  • 筆記

之前,我們簡單的分析介紹了實現貪吃蛇的基本原理和工具,本篇我們將進一步用程式碼分析其具體的形成過程。

設置規則

首先,我們需要設計運行時彈出的框的大小,在已設環境中,初始化蛇的長度和寬度,以及蛇每次移動的距離。這裡看個人喜好,不加以講解。

接下來我們需要確定蛇如何運動,貪吃蛇中比較重要的就是控制蛇的方向,這裡我們使用「隨機函數」來設定了蛇的「方向」。定義了初始位置之後,我們用0到3四個數模擬上下左右。

如下我們假設「a=random.randint」(0,3)為0,這時我們設置它為向左走0到3個單位,此時定義方向為1。同理可以得到a另外三個取值的情況。

if a == 0:      self.X = deque([x_start, x_start - 1, x_start - 2, x_start - 3])      self.Y = deque([y_start, y_start, y_start, y_start])      init_dir = 1  

模擬蛇吃果實的場景,吃到果實時,蛇的身體會增加一單位長度(增加多少隨參數設定變化而不同),這時,我們可以等價看成「果實的坐標加入了整個蛇的坐標隊列」,即只需把果實的坐標添加,再區分蛇頭和身體即可。判定吃到果實後,分數增加50,果實刷新。

def eat_food(self, x_food, y_food):      self.X.appendleft(x_food)      self.Y.appendleft(y_food)      self.LENGTH += 1      self.MOVES += 100    def update(self, x_change, y_change):      # 更新貪吃蛇身體位置      for i in range(self.LENGTH - 1, 0, -1):          self.X[i] = self.X[i - 1]          self.Y[i] = self.Y[i - 1]        # 更新貪吃蛇頭部位置      self.X[0] = self.X[0] + x_change      self.Y[0] = self.Y[0] + y_change        self.MOVES -= 1  
if new_head_x == self.FOOD_X and new_head_y == self.FOOD_Y:      self.SNAKE.eat_food(self.FOOD_X, self.FOOD_Y)  # 確認吃了食物      reward = 50  # 給予吃食物的獎勵      food_eaten = True  
def reset(self):      ......      ......      self.FOOD_X, self.FOOD_Y = self.get_randoms()

接下來模擬蛇當場去世的情況。我們用坐標來模擬蛇,那麼顯然,當蛇的頭位置與身體位置發生重合時,即判定撲街。同時,如果蛇頭觸碰了邊界,我們同樣判定其死亡。程式碼中我們會設置一個函數來判定,當其滿足死亡條件時,將被賦值為False(訓練時我們將結果存儲在done[])。

def bit_itself(self):      for i in range(1, self.LENGTH):          if self.X[0] == self.X[i] and self.Y[0] == self.Y[i]:              return True      return False    def is_on_body(self, check_x, check_y, remove_last=True):      X, Y = self.X.copy(), self.Y.copy()        if remove_last:  # 不考慮尾部          Y.pop()      for x, y in zip(X, Y):          if x == check_x and y == check_y:              return True      return False  
if new_head_x < x1 or new_head_x > x2 or new_head_y < y1 or new_head_y > y2:      reward = -50      done = True      self.SNAKE.kill()
def kill(self):      self.is_alive = False  

此處我們涉及到了zip()函數,zip的功能主要是將涉及到的元素合併起來,這裡通過將蛇身體的坐標的合併,可以輕鬆得到坐標列,當蛇頭(x,y)正好在該列之中,即重合。

if action == 0:      if self.VELOCITY == 1:  # 向右移動          x_change = 1      else:          x_change = -1  # 向左移動          update = True  ......  

具體的行動規則依照設定的上下左右的方式來決定。

到此我們完成了貪吃蛇設計的第一階段。

上圖是貪吃蛇人工智慧誕生,訓練與運行的主要流程,我們將以該圖流程為依據展開。

初始化環境

神經網路參數的設置
HIDDEN_UNITS = (32, 16, 32)  # 神經網路隱藏層神經元數目  NETWORK_LR = 0.001  # 神經網路學習率  BATCH_SIZE = 64  # 訓練批次  UPDATE_EVERY = 5  # 本地模型每訓練5次更新  GAMMA = 0.95  # 強化學習中的折扣因子  NUM_EPISODES = 5000  # 最大迭代次數  def train():      agent = DeepQ_agent(env, hidden_units=HIDDEN_UNITS, network_LR=NETWORK_LR,                          batch_size=BATCH_SIZE, update_every=UPDATE_EVERY,                               gamma=GAMMA)  # 深度學習環境      ......  

折扣因子是估算未來的價值所需要的元素。在貪吃蛇中,我們需要大約確定未來幾步的最優選擇,而距離現在越遠,其影響越小,即當我們計算rewards時,未來每一步的分數都會乘折扣因子的n次方。

環境狀態設定
def reset(self):        # 初始化貪吃蛇和食物的位置      snake_x, snake_y = self.get_randoms(length=4)      self.SNAKE = Snake(snake_x, snake_y, self.WIDTH, self.HEIGHT)      self.VELOCITY = self.SNAKE.INITIAL_DIRECTION      self.FOOD_X, self.FOOD_Y = self.get_randoms()      self.STATE = self.SNAKE.look(self.FOOD_X, self.FOOD_Y,      self.get_boundaries())      return self.STATE  

初始化蛇、果實的位置,方向,將其存儲在state中(Q(s,a)的 s)

設定訓練模型和張量

判斷蛇和與環境的關係,生成環境張量

上面的程式碼塊中的look就是機器判斷環境的核心

def look(self, x_food, y_food, boundaries):      # 往上觀察      up = self.lookInDirection(boundaries, y=-1, x=0)      ......#左右等剩餘七個觀察      head_x, head_y = self.head_pos()      ......      aa = np.hstack((food_position, up, up_right, right, down_right, down, down_left, left, up_left))      return np.hstack((food_position, up, up_right, right, down_right, down, down_left, left, up_left))      def lookInDirection(self, boundaries, y, x):      tail_distance = 0  # 0如果尾部不在這個方向      distance = 1  # 1是離牆的最小距離      curr_x, curr_y = self.head_pos()      check_x, check_y = curr_x + x, curr_y + y  # 按照方向變化頭部位置      x1, x2, y1, y2 = boundaries      while y1 <= check_y <= y2 and x1 <= check_x <= x2:          if tail_distance == 0 and (self.is_on_body(check_x, check_y,          remove_last=False)):              tail_distance = (1 / distance)          # 持續迭代          check_y += y          check_x += x          distance += 1      return np.array([1 / distance, tail_distance])  

邊界距離從行動後distance的迭代得到。通過對果實,邊界距離、方向的計算與估計,確立出state。通過look出來的結果,將各種影響環境狀態的因素用hstack合併,生成環境張量。

開始訓練

建立本地和目標模型,並預估動作
self.qnetwork_local = QNetwork(input_shape=self.env.STATE_SPACE,                                 output_size=self.nA,                                 learning_rate=self.NETWORK_LR)  #print(self.qnetwork_local.model.summary())    #一個模型用於本地訓練,另外一個模型隨之更新權重  self.qnetwork_target = QNetwork(input_shape=self.env.STATE_SPACE,                                  output_size=self.nA,                                  learning_rate=self.NETWORK_LR)    self.memory = ReplayMemory(self.MEMORY_CAPACITY, self.BATCH_SIZE)  
#使用本地模型估計下一個動作  target = self.qnetwork_local.predict(states, self.BATCH_SIZE)  #使用目標模型估計下一個動作  target_val = self.qnetwork_target.predict(      next_states, self.BATCH_SIZE)  target_next = self.qnetwork_local.predict(      next_states, self.BATCH_SIZE)

用兩個模型的優點和各自用途在(上)中已經講到過,這裡不再解釋。

乾貨 | Python人工智慧在貪吃蛇遊戲中的應用探索(上)

計算分數
for i in range(self.BATCH_SIZE):      if dones[i]:          target[i][actions[i]] = rewards[i]      else:          target[i][actions[i]] = rewards[i] + self.GAMMA *               target_val[i][max_action_values[i]  

當蛇死掉,分數即為當前的分數。否則將繼續迭代,但是預估的每個未來的行動都會乘以折扣因子。同時,在訓練批次範圍內的多次循環會得到一系列的rewards,其中的最大值就是我們預估出的最佳行動方式,我們以此會不斷更新權重,使貪吃蛇更加智慧。

執行訓練

開始移動
def act(self, state, epsilon):  #設置epsilon默認為0      state = state.reshape((1,)+state.shape)      action_values = self.qnetwork_local.predict(          state)      if random.random() > epsilon:          #選擇最好的行動          action = np.argmax(action_values)      else:          #選擇隨機的行動          action = random.randint(0, self.nA-1)      return action  

行動的時候有兩種情況。此處我們設置了epsilon(取0.1),並取(0,1)隨機數,當大於epsilon時則按照rewards最大的經驗行動。當小於時,則會隨機採取一次行動,同時epsilon會乘以一個係數,直到設定的最小值(我們設置了0.01)。這樣做的目的,是為了在剛開始訓練時,快速積累行動經驗,加快人工智慧的進步。同時,隨著無數次的訓練,權重的不斷更新,蛇的行動會越來越準確。

存儲與提取經驗
def add_experience(self, state, action, reward, next_state, done):      self.memory.add(state, action, reward, next_state, done)    def add(self, state, action, reward, next_state, done):          '''把經驗存儲起來'''      e = tuple((state, action, reward, next_state, done))  
def sample(self, state_shape):      experiences = random.sample(self.memory, k=self.BATCH_SIZE)      # 提取回饋資訊      states, actions, rewards, next_states, dones = zip(*experiences)  
def learn(self):      if self.memory.__len__() > self.BATCH_SIZE:          states, actions, rewards, next_states, dones = self.memory.sample(              self.env.STATE_SPACE)

當經驗組數量大於訓練批次後,每次我們都會提取出64組(訓練批次數量)的經驗,來得到相應的action。

model_arch = '2019816'  resume_model_path = model_out_dir + '/snake_dqn_2019815_final.h5'  
agent.qnetwork_local.model = load_model('F://貪吃蛇//SnakeAI-master//agents_models//snake_dqn_2019816_3000.h5')  

這一步是人工智慧貪吃蛇的關鍵步驟,「我們定義訓練模型的路徑,並在正式運行時調用。該訓練文件會存入訓練生成神經網路模型的權重。當我們運行時會調用該文件中的權重。如果該路徑下沒有已有的訓練文件,那麼訓練生成的權重就會存入。如果想要重新訓練,我們就要刪除並重新定義這一路經。」

這裡的原理是「通過神經網路的無數次訓練來調整權重。當貪吃蛇訓練時遇到新環境,根據已有模型,預測一個接近的結果向量來選擇最好的方式移動。訓練環境也會逐漸擴大(訓練環境與遇到的環境不是一個),當達到訓練批次時就會固定。」

總流程如下

自此,貪吃蛇人工智慧的介紹結束。

「參考文獻:」

貪吃蛇程式碼

源程式碼作者:齊浩洋(香港城市大學數據科學學院)

文案 && 編輯:白宇嘯(華中科技大學管理學院)

審稿&&修正:齊浩洋(香港城市大學數據科學學院)

指導老師:秦虎(華中科技大學管理學院)

如對文中內容有疑問,歡迎交流。