強化学習とは
人は1日に約3万5千回もの選択をしていると言われていますが、世の中は意思決定の連続で、その時々でどのような選択・行動をしたらいいのか?という課題(=時系列の最適化問題)で溢れています。

時々刻々の最適な選択・行動が教師データとしてたくさん用意できる場合は、「教師あり学習」の枠組みで最適な選択・行動を教えてくれるAIを構築できるかもしれませんが、ほとんどの課題において最適な選択・行動は自明ではありません。
ただし、一連の選択・行動を取った結果に対してその良し悪し(“報酬”という言う)を評価できるケースは多く、強化学習はこの報酬を拠り所に時々刻々の最適な選択・行動を学習することができます(囲碁AIの例ですと、全ての盤面での最適な1手を教師データとして与えるのは難しいですが、最終的な勝敗をフィードバックすることは容易にできます)。
人が自転車の乗り方を学ぶ過程も強化学習に似ています。時々刻々のペダルを踏む強さを教えて貰うわけではなく、様々な力加減でペダルを実際に漕いでみた結果、転んだり(負の報酬)、うまく進んだり(正の報酬)の経験を経て、適切なペダルの漕ぎ方を習得して行きます。
時系列・系列の最適化問題の難しさ
この手の問題の難しさは、時々刻々の最適な選択・行動を決めるのに、ある程度将来を見通さなければならない点にあります。先を見ずに今この瞬間のベストだと思われる選択・行動を繋いでいってもトータルで最適な結果が得られるとは限りません。
先を見通して意思決定する為に、取り得る全ての選択・行動を実施し、その中で一番良いものを選ぶのがシンプルで分かりやすい方法ですが、現実的な時間でその方法が使える課題はそう多くありません(囲碁の例ですと、どこに石を置くか常に100以上の選択肢があり、それを100手ほど続ける場合のバリエーションは天文学的数字になります)。
このような難しい課題に立ち向かうべく、先人が編み出した強力な手段として強化学習があり、昨今の深層学習技術の勃興も後押しする形となって、様々な課題への深層強化学習(=強化学習+深層学習)の適用が進んでいます。
エンジニアリングが試される強化学習のモデル化
囲碁AIから生成AIに至るまで様々な課題に適用できる強化学習ですが、良い強化学習モデルを作成する為には、適用する課題への深い理解が必要です。これらの理解に基づいて、強化学習AIにどのような情報(状態、報酬)や選択肢を与えるか等検討する必要があります。

エステックでは、長年培ってきたエンジニアリング知識を活かして、お客様の課題に適した強化学習モデルの構築および課題解決をご支援しています。
業務実績例
-
トレーラの自動駐車
-
エネルギマネジメント
-
移動機械のパラメータ計画
-
CAEソフト操作の自動化