マルコフ決定プロセス(MDP)

著者: Laura McKinney
作成日: 5 4月 2021
更新日: 22 六月 2024
Anonim
マルコフ決定過程(MDP)-強化学習問題の構造化
ビデオ: マルコフ決定過程(MDP)-強化学習問題の構造化

コンテンツ

定義-マルコフ決定プロセス(MDP)とはどういう意味ですか?

マルコフ決定プロセス(MDP)は、専門家が「離散時間確率制御プロセス」と呼ぶものです。19世紀後半から20世紀初頭にロシアの学者アンドレイ・マルコフによって開拓された数学に基づいています。


Microsoft AzureとMicrosoft Cloudの紹介|このガイドでは、クラウドコンピューティングとは何か、Microsoft Azureを使用してクラウドからビジネスを移行および実行する方法を学習します。

Techopediaはマルコフ決定プロセス(MDP)を説明します

マルコフ決定プロセスと関連するマルコフ連鎖を説明する1つの方法は、これらが数百年前のロシアの科学者によるより単純な数学的研究に基づいた現代のゲーム理論の要素であることです。マルコフ決定プロセスの説明は、システムが特定の状態セットにあるシナリオを研究し、意思決定者の決定に基づいて別の状態に進むというものです。

モデルとしてのマルコフ連鎖は、与えられたイベントの確率が以前に達成された状態に依存するイベントのシーケンスを示します。専門家は、マルコフ決定プロセスを説明する際に「可算状態空間」について話すことがあります。マルコフ決定モデルのアイデアを「ランダムウォーク」モデルまたは確率に基づく他の確率モデル(ランダムウォークモデル。 Streetは、市場確率の上下で株式の動きをモデル化します。

一般に、マルコフの意思決定プロセスは、多くの場合、たとえばロボット工学、自動化、研究モデルなど、専門家が今日取り組んでいる最も洗練された技術のいくつかに適用されます。