強化学習を用いた静的評価関数とシミュレーション方策の学習

人工知能を用いた情報工学システムの構築を研究する五十嵐教授は、コンピュータ将棋のシステム構築も研究対象としている。

コンピュータ将棋において、局面の優劣を判定するためには評価関数が用いられている。従来のプログラムでは、プロ棋士の棋譜データベースを利用し、さまざまな局面でプロの将棋棋士が実際に指した記録を何万局と集めて学習していたが、本研究ではプロ棋士の棋譜データベースを使用せず、将棋ソフトが自分の対局の勝敗情報などから評価関数を学習していく研究を行った。

受賞について五十嵐教授は「コンピュータチェスで有効であった強化学習法は、将棋ではそれほど有効ではありません。チェスとは異なるアプローチで強化学習を利用した点と、評価関数以外の学習にも応用できそうなことを示した点とが評価されたのではないかと思います」と話した。

※本賞は、将棋プログラム開発者である森岡祐一氏、山本一将氏(情報工学科2012年3月卒業)との共同研究に対して受賞したものです。