<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>بایگانی‌های یادگیری تقویتی - شرکت شبیه پردازان</title>
	<atom:link href="https://www.shabihpardazan.com/tag/%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D8%AA%D9%82%D9%88%DB%8C%D8%AA%DB%8C/feed/" rel="self" type="application/rss+xml" />
	<link></link>
	<description>شبیه سازی، بهینه سازی، دوقلوی دیجیتال، یادگیری ماشین</description>
	<lastBuildDate>Wed, 10 Aug 2022 15:08:55 +0000</lastBuildDate>
	<language>fa-IR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	

<image>
	<url>https://www.shabihpardazan.com/wp-content/uploads/2026/05/cropped-Untitled-4-1-32x32.jpg</url>
	<title>بایگانی‌های یادگیری تقویتی - شرکت شبیه پردازان</title>
	<link></link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>الگوریتم های یادگیری تقویتی</title>
		<link>https://www.shabihpardazan.com/%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/</link>
					<comments>https://www.shabihpardazan.com/%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/#respond</comments>
		
		<dc:creator><![CDATA[مدیر سایت]]></dc:creator>
		<pubDate>Mon, 01 Aug 2022 09:26:10 +0000</pubDate>
				<category><![CDATA[یادگیری تقویتی]]></category>
		<category><![CDATA[off-policy]]></category>
		<category><![CDATA[on-policy]]></category>
		<category><![CDATA[q-learning]]></category>
		<category><![CDATA[sarsa]]></category>
		<category><![CDATA[الگوریتم Q-learning]]></category>
		<category><![CDATA[الگوریتم SARSA]]></category>
		<category><![CDATA[الگوریتم های یادگیری تقویتی]]></category>
		<category><![CDATA[الگوریتم یادگیری تقویتی]]></category>
		<category><![CDATA[سارسا]]></category>
		<category><![CDATA[مقایسه الگوریتم یادگیری تقویتی]]></category>
		<category><![CDATA[یادگیری Q]]></category>
		<guid isPermaLink="false">https://www.shabihpardazan.com/?p=26917</guid>

					<description><![CDATA[<p>نوشته <a href="https://www.shabihpardazan.com/%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/">الگوریتم های یادگیری تقویتی</a> اولین بار در <a href="https://www.shabihpardazan.com">شرکت شبیه پردازان</a>. پدیدار شد.</p>
]]></description>
										<content:encoded><![CDATA[<section class="l-section wpb_row height_small width_full"><div class="l-section-h i-cf"><div class="g-cols via_flex valign_top type_default"><div class="vc_col-sm-12 wpb_column vc_column_container"><div class="vc_column-inner"><div class="wpb_wrapper"><div class="wpb_text_column"><div class="wpb_wrapper"><p style="text-align: justify;">در این مطلب قصد داریم تا با الگوریتم های یادگیری تقویتی (Reinforcement Learning) آشنا شویم. همانطور که به صورت جامع در خصوص تعریف یادگیری تقویتی در مطلب &#8220;<strong><a href="https://www.shabihpardazan.com/%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/" target="_blank" rel="noopener">یادگیری تقویتی چیست؟</a></strong>&#8221; توضیح داده شده است، یادگیری تقویتی یکی از زیرشاخه های یادگیری ماشین است که در آن یک عامل یادگیرنده در تعامل با محیط سعی می‌کند به یک سیاست بهینه دست یابد. عامل یادگیرنده با مشاهده وضعیت سیستم (S)، اقدام (A) را انتخاب می‌نماید. محیط بازخورد این اقدام را در قالب پاداش (R) و حالت بعدی سیستم به عامل بازمی‌گرداند. عامل مجددا با مشاهده پاداش و حالت سیستم، اقدام بعدی را انتخاب می‌کند و این فرآیند تا زمان رسیدن به سیاست بهینه ادامه پیدا می‌کند.</p>
<p><img fetchpriority="high" decoding="async" class="wp-image-26921 aligncenter" src="https://www.shabihpardazan.com/wp-content/uploads/2022/08/RL.jpg" alt="یادگیری تقویتی" width="507" height="178" /></p>
<p style="text-align: justify;">الگوریتم‌های مختلفی برای یادگیری تقویتی توسعه داده شده است که هر یک دارای نقاط و ضعف مشخصی است. با ظهور شاخه یادگیری تقویتی عمیق، کاربرد یادگیری تقویتی روزافزون شده است و به موضوعی جذاب چه برای تحقیقات و چه برای کاربرد تبدیل شده است.</p>
<h3>انواع الگوریتم های یادگیری تقویتی</h3>
<p>در یک دسته بندی کلی میتوان الگوریتم های یادگیری تقویتی را به دو دسته الگوریتم های On-policy و الگوریتم های Off-policy تقسیم بندی نمود:</p>
<ul>
<li><strong>الگوریتم های یادگیری تقویتی On-policy:</strong> در این الگوریتم‌ها تابع ارزش بر اساس سیاست و اقدام فعلی عامل به روز می‌شود.</li>
<li><strong>الگوریتم های یادگیری تقویتی Off-policy:</strong> در این الگوریتم‌ها تابع ارزش مستقل از سیاست و اقدام فعلی عامل به روز می‌شود.</li>
</ul>
<p>الگوریتم <strong>سارسا SARSA</strong> یکی از معروفترین الگوریتم های on-policy یادگیری تقویتی است و الگوریتم <strong>Q-learning</strong> نیز یکی از معروفترین الگوریتم های off-policy یادگیری تقویتی است که در ادامه توضیح داده خواهد شد.</p>
<h2>الگوریتم سارسا (SARSA)</h2>
<p style="text-align: justify;">الگوریتم سارسا (Sarsa) یک الگوریتم یادگیری تقویتی on-policy است. در این الگوریتم ابتدا عامل یادگیرنده با مشاهده حالت سیستم (S) و بر اساس سیاست مشخص، اقدام (A) را انتخاب می‌کند. در ادامه بعد از انتخاب اقدام، محیط حالت بعدی سیستم و پاداش را مشخص میکند. عامل با مشاهده وضعیت بعدی سیستم و پاداش دریافتی، مقدار تابع ارزش اقدام (action-value function) را محاسبه و به روز می‌کند. این روند تا زمانی که مقدار تابع ارزش اقدام به مقدار بهینه آن همگرا شود ادامه خواهد یافت.</p>
<p><img decoding="async" class="wp-image-26958 aligncenter" src="https://www.shabihpardazan.com/wp-content/uploads/2022/08/MDP2.jpg" alt="زنجیره مارکوف" width="605" height="55" srcset="https://www.shabihpardazan.com/wp-content/uploads/2022/08/MDP2.jpg 827w, https://www.shabihpardazan.com/wp-content/uploads/2022/08/MDP2-300x28.jpg 300w, https://www.shabihpardazan.com/wp-content/uploads/2022/08/MDP2-600x55.jpg 600w" sizes="(max-width: 605px) 100vw, 605px" /></p>
<p>&nbsp;</p>
<p>جزئیات الگوریتم سارسا (Sarsa) در شکل زیر نشان داده شده است:</p>
<p><img decoding="async" class="size-full wp-image-26959" src="https://www.shabihpardazan.com/wp-content/uploads/2022/08/SARSA.jpg" alt="الگوریتم سارسا (SARSA)" width="1128" height="489" srcset="https://www.shabihpardazan.com/wp-content/uploads/2022/08/SARSA.jpg 1128w, https://www.shabihpardazan.com/wp-content/uploads/2022/08/SARSA-300x130.jpg 300w, https://www.shabihpardazan.com/wp-content/uploads/2022/08/SARSA-600x260.jpg 600w" sizes="(max-width: 1128px) 100vw, 1128px" /></p>
<p>&nbsp;</p>
<p style="text-align: justify;">همانطور که نشان داده شده است، در مرحله اول می‌بایست مقادیر اولیه آلفا و اپسیلون و همچنین مقادیر مربوط به ماتریس Q(S,a) هم مشخص شود. سپس یک حالت به صورت تصادفی انتخاب می‌شود. با سیاست در نظر گرفته شده اقدام در این حالت اتخاذ می‌شود و پاداش (R) و مقدار بعدی حالت سیستم دریافت می‌شود. با استفاده از مقادیر مشاهده شده، مقدار Q(s,a) به روزرسانی می‌شود. همانطور که مشخص است به دلیل on-policy بودن این روش، مقدار ارزش اقدام به صورت مستقیم توسط اقدام و سیاست فعلی به روز می‌شود.</p>
<h2>الگوریتم Q-Learning</h2>
<p style="text-align: justify;">الگوریتم یادگیری کیو (یادگیری Q) و یا Q-Learning، یکی از الگوریتم های بسیار معروف از نوع off-policy در حوزه یادگیری تقویتی است. عامل یادگیرنده با الگوریتم Q-Learning، مشابه الگوریتم سارسا، بعد از مشاهده اقدامی (A) را انتخاب می‌کند. سپس محیط به عامل، حالت بعدی سیستم و پاداش مربوطه ناشی از اقدام اتخاذ شده را بر می‌گرداند. عامل با مشاهده اطلاعات دریافتی از محیط، اقدام بعدی را انتخاب می‌کند و این فرآیند تا زمان رسیدن به سیاست بهینه ادامه پیدا می‌کند. در شکل زیر جزئیات الگوریتم Q-Learning نمایش داده شده است:</p>
<p><img loading="lazy" decoding="async" class="size-full wp-image-26975" src="https://www.shabihpardazan.com/wp-content/uploads/2022/08/q-learning.jpg" alt="الگوریتم Q-learning" width="1127" height="481" srcset="https://www.shabihpardazan.com/wp-content/uploads/2022/08/q-learning.jpg 1127w, https://www.shabihpardazan.com/wp-content/uploads/2022/08/q-learning-300x128.jpg 300w, https://www.shabihpardazan.com/wp-content/uploads/2022/08/q-learning-600x256.jpg 600w" sizes="auto, (max-width: 1127px) 100vw, 1127px" /></p>
<p style="text-align: justify;">همانطور که نشان داده شده است، در مرحله اول می‌بایست مقادیر اولیه آلفا و اپسیلون و همچنین مقادیر مربوط به ماتریس Q(S,a) هم مشخص شود. سپس یک حالت به صورت تصادفی انتخاب می‌شود. با سیاست در نظر گرفته شده اقدام در این حالت اتخاذ می‌شود و پاداش (R) و مقدار بعدی حالت سیستم دریافت می‌شود. با استفاده از مقادیر مشاهده شده، مقدار Q(s,a) به روزرسانی می‌شود.</p>
<p style="text-align: justify;">الگوریتم Q-Learning بر خلاف الگوریتم سارسا، یک الگوریتم Off-policy است که این موضوع در فرمول ارائه شده برای به روزرسانی مقدار ارزش &#8211; اقدام Q(s,a) مشخص است. مقدار به روزرسانی بر اساس بیشترین مقدار ارزش-اقدام انجام میگیرد (Max Q(s&#8217;,a)) و نه بر اساس Q(s&#8217;,a).</p>
<h3>مقایسه عملکرد الگوریتم Sarsa و الگوریتم Q-Learning</h3>
<p>همانطور که ذکر شد الگوریتم سارسا یک الگوریتم on-policy و الگوریتم Q-learning یک الگوریتم off-policy است. بنابراین در رسیدن به سیاست بهینه اختلاف اساسی وجود دارد. حال سوالی که وجود دارد این است که در چه مواقعی از الگوریتم SARSA یا الگوریتم Q-Learning استفاده کنیم؟</p>
<p>در برخی از <a href="https://www.researchgate.net/figure/Convergence-speed-comparison-of-Q-learning-and-SARSA-l_fig5_309419356" target="_blank" rel="noopener">مقالات</a> اشاره شده است که الگوریتم SARSA سرعت همگرایی بیشتری نسبت به الگوریتم Q-learning دارد. همچنین در الگوریتم سارسا پردازش کمتری نسبت به الگوریتم یادگیری Q احتیاج است. البته <a href="https://towardsdatascience.com/intro-to-reinforcement-learning-temporal-difference-learning-sarsa-vs-q-learning-8b4184bb4978" target="_blank" rel="noopener">بیان شده است</a> که در صورتی که نیاز است تا در زمان کم و با هزینه کمتری سیاست بهینه به دست یابد (مثلاً برنامه ریزی یک ربات در محیط واقعی)، بهتر است از الگوریتم SARSA استفاده شود. در غیر اینصورت و در صورتی که یک مدل شبیه سازی از سیستم وجود دارد و تعداد تکرار بالا هزینه ای را ایجاد نمی‌کند، الگوریتم Q-learning مناسب تر است.</p>
<p><img loading="lazy" decoding="async" class="size-full wp-image-26977 aligncenter" src="https://www.shabihpardazan.com/wp-content/uploads/2022/08/Learning-curve-comparison-for-Q-learning-and-Sarsa.jpg" alt="مقایسه SARSA و Q-learning" width="540" height="378" srcset="https://www.shabihpardazan.com/wp-content/uploads/2022/08/Learning-curve-comparison-for-Q-learning-and-Sarsa.jpg 540w, https://www.shabihpardazan.com/wp-content/uploads/2022/08/Learning-curve-comparison-for-Q-learning-and-Sarsa-300x210.jpg 300w" sizes="auto, (max-width: 540px) 100vw, 540px" /></p>
<p style="text-align: center;"><a href="https://www.researchgate.net/figure/Learning-curve-comparison-for-Q-learning-and-Sarsal_fig8_228766787" target="_blank" rel="noopener">منبع تصویر: سایت Researchhgate</a></p>
<p>همانطور که در نمودار نیز نشان داده شده است، سرعت همگرایی SARSA بهتر است. ولی در برخی از مقالات بیان شده است که Q-Learning تخمین بهتری از سیاست بهینه به دست می‌آورد.</p>
<p>چنانچه تمایل به فراگیری یادگیری تقویتی را دارید، پیشنهاد می‌کنیم در <strong><a href="https://www.shabihpardazan.com/%d8%a2%d9%85%d9%88%d8%b2%d8%b4-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/">&#8220;دوره آموزش یادگیری تقویتی با پایتون&#8221;</a></strong> شرکت شبیه پردازان شرکت کنید. جهت آشنایی بیشتر با یادگیری تقویتی مطالب &#8220;<a href="https://www.shabihpardazan.com/%d8%b9%d9%85%d9%84%da%a9%d8%b1%d8%af-%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/"><strong>عملکرد الگوریتمهای یادگیری تقویتی</strong></a>&#8221; و <strong><a href="https://www.shabihpardazan.com/%da%a9%d8%a7%d8%b1%d8%a8%d8%b1%d8%af-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/">&#8220;کاربردهای یادگیری تقویتی&#8221;</a></strong> را مشاهده کنید.</p>
</div></div></div></div></div></div></div></section>
<p>نوشته <a href="https://www.shabihpardazan.com/%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/">الگوریتم های یادگیری تقویتی</a> اولین بار در <a href="https://www.shabihpardazan.com">شرکت شبیه پردازان</a>. پدیدار شد.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.shabihpardazan.com/%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>عملکرد الگوریتم یادگیری تقویتی</title>
		<link>https://www.shabihpardazan.com/%d8%b9%d9%85%d9%84%da%a9%d8%b1%d8%af-%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/</link>
					<comments>https://www.shabihpardazan.com/%d8%b9%d9%85%d9%84%da%a9%d8%b1%d8%af-%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/#respond</comments>
		
		<dc:creator><![CDATA[مدیر سایت]]></dc:creator>
		<pubDate>Sun, 03 Jul 2022 09:24:45 +0000</pubDate>
				<category><![CDATA[یادگیری تقویتی]]></category>
		<category><![CDATA[Reinforcement Learning]]></category>
		<category><![CDATA[RL]]></category>
		<category><![CDATA[بازی]]></category>
		<category><![CDATA[بازی آتاری]]></category>
		<category><![CDATA[عملکرد یادگیری تقویتی]]></category>
		<guid isPermaLink="false">https://www.shabihpardazan.com/?p=26456</guid>

					<description><![CDATA[<p>نوشته <a href="https://www.shabihpardazan.com/%d8%b9%d9%85%d9%84%da%a9%d8%b1%d8%af-%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/">عملکرد الگوریتم یادگیری تقویتی</a> اولین بار در <a href="https://www.shabihpardazan.com">شرکت شبیه پردازان</a>. پدیدار شد.</p>
]]></description>
										<content:encoded><![CDATA[<section class="l-section wpb_row height_small color_alternate"><div class="l-section-h i-cf"><div class="g-cols via_flex valign_top type_default"><div class="vc_col-sm-2 wpb_column vc_column_container"><div class="vc_column-inner"><div class="wpb_wrapper"><div class="wpb_text_column"><div class="wpb_wrapper"></div></div></div></div></div><div class="vc_col-sm-8 wpb_column vc_column_container"><div class="vc_column-inner"><div class="wpb_wrapper"><div class="wpb_text_column"><div class="wpb_wrapper">
    <div style="max-width:900px;">        
    <video id="plyr69fcff4e47197" controls class="easy-video-player wp-video2">
       <source src="https://www.shabihpardazan.com/clips/RL.mp4" type="video/mp4" />
    </video>
    </div>    <script>
        const evplayerplyr69fcff4e47197 = new Plyr(document.getElementById('plyr69fcff4e47197'));
        evplayerplyr69fcff4e47197.ratio = '4:3';
        evplayerplyr69fcff4e47197.iconUrl = 'https://www.shabihpardazan.com/wp-content/plugins/easy-video-player/lib/plyr.svg';
        evplayerplyr69fcff4e47197.blankVideo = 'https://www.shabihpardazan.com/wp-content/plugins/easy-video-player/lib/blank.mp4';  
    </script>
</div></div></div></div></div><div class="vc_col-sm-2 wpb_column vc_column_container"><div class="vc_column-inner"><div class="wpb_wrapper"></div></div></div></div></div></section><section class="l-section wpb_row height_small"><div class="l-section-h i-cf"><div class="g-cols via_flex valign_top type_default"><div class="vc_col-sm-12 wpb_column vc_column_container"><div class="vc_column-inner"><div class="wpb_wrapper"><div class="wpb_text_column"><div class="wpb_wrapper"><p style="text-align: justify;">یادگیری تقویتی (Reinforcement Learning) و یا به اختصار (RL) یکی از زیرشاخه های یادگیری ماشینی  (Machine Learning) است. در این رویکرد، عامل یادگیرنده با استفاده از الگوریتم یادگیری محیط، اقداماتی را در محیط انجام می‌دهد و پاداش اقدام خود را مشاهده می‌کند. این فرآیند به گونه‌ای ادامه پیدا می‌کند که عامل اقداماتی را انجام می‌دهد که پاداش دریافتی بیشینه می‌گردد.</p>
<p style="text-align: justify;">نحوه انتخاب اقدام توسط عامل در هر وضعیت متاثر از ارزش آن اقدام در وضعیت مشخص است. هدف اصلی عامل حداکثر کردن پاداش دریافتی فعلی و آتی است.</p>
<p style="text-align: justify;">در سالهای اخیر به دلیل ارتباطی که بین الگوریتمهای RL و شبکه های عصبی (Neural Network) به وجود آمده است، شاخه جدیدی به عنوان یادگیری تقویتی عمیق (Deep Reinforcement Learning) و یا به اختصار DRL به وجود آمده است. رویکرد DRL کاربردهای بسیار متنوعی در صنایع، بازارهای مالی، سیستمهای سلامت، بازیهای کامپیوتری و خودروهای خودران و &#8230; دارد.</p>
<p style="text-align: justify;">در سال 2015 آقای دیوید سیلور (David Silver) به همراه همکاران خود عملکرد الگوریتم <a href="https://arxiv.org/abs/1509.06461?context=cs">DDQN</a> را در انجام بازیهای کامپیوتری نشان دادند و نتایج آن خیره کننده بود. در بسیاری از بازیها، عامل یادگیرنده با استفاده از الگوریتم DDQN موفق به بهبود بهترین رکورد به دست آمده شده بود.</p>
<p style="text-align: justify;">به منظور آشنایی بیشتر با عملکرد الگوریتم های RL و DRL، در زیر کلیپ از عملکرد عامل یادگیرنده با استفاده از DRL برای انجام بازیهای آتاری آورده شده است. مشاهده خواهد شد که عامل در ابتدای انجام بازی، اقدامات بدون هدفی را انتخاب می‌کند. ولی بعد از گذشت زمان، رفته رفته عملکرد مطلوبی از خود نشان می‌دهد.</p>
<p style="text-align: justify;">جهت آشنایی بیشتر با الگوریتمهای یادگیری تقویتی مطالب&#8221;<a href="https://www.shabihpardazan.com/%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/"><strong>یادگیری تقویتی چیست</strong>؟</a>&#8221; و &#8220;<strong><a href="https://www.shabihpardazan.com/%da%a9%d8%a7%d8%b1%d8%a8%d8%b1%d8%af-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/">کاربرد یادگیری تقویتی</a></strong>&#8221; را مطالعه نمایید.</p>
</div></div></div></div></div></div></div></section>
<p>نوشته <a href="https://www.shabihpardazan.com/%d8%b9%d9%85%d9%84%da%a9%d8%b1%d8%af-%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/">عملکرد الگوریتم یادگیری تقویتی</a> اولین بار در <a href="https://www.shabihpardazan.com">شرکت شبیه پردازان</a>. پدیدار شد.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://www.shabihpardazan.com/%d8%b9%d9%85%d9%84%da%a9%d8%b1%d8%af-%d8%a7%d9%84%da%af%d9%88%d8%b1%db%8c%d8%aa%d9%85-%db%8c%d8%a7%d8%af%da%af%db%8c%d8%b1%db%8c-%d8%aa%d9%82%d9%88%db%8c%d8%aa%db%8c/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		<enclosure url="http://www.shabihpardazan.com/clips/RL.mp4" length="0" type="video/mp4" />

			</item>
	</channel>
</rss>
