تحلیل نظریه بازی تکاملی ایران و عربستان در چارچوب الگوریتم ژنتیک

نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانشگاه شهید باهنر کرمان

2 عضو هیات علمی دانشگاه شهیدباهنر کرمان

چکیده

هدف این مقاله ارائه مدلی جدید از جستجوی استراتژی­های بهینه در بازی معمای زندانی تکراری با استفاده از الگوریتم ژنتیک است. بدین منظور با شبیه­سازی رقابت بین ایران و عربستان در ائتلاف اوپک نفتی، از 12 نوع استراتژی مطرح در بازی معمای زندانی تکراری طی 20 اجرای الگوریتم ژنتیک به‌منظور حداکثرسازی امتیازات فردی بازیکن و نیز حداقل­سازی امتیاز برازندگی رقیب استفاده شده است. نتایج نشان داد استراتژی "عمل متقابل" حائز بالاترین بازدهی متوسط در هر دو رقابت بوده و در رتبه­های بعدی استراتژی‌های "اکثریت موافق"، "ماشه" و "عمل متقابل پس از دو بار نقض همکاری رقیب" جای گرفته­اند. استراتژی "همواره عدم همکاری" نیز در رقابت­ها با کمترین بازدهی به­عنوان ناکاراترین استراتژی شناخته شده است.

کلیدواژه‌ها


1. مقدمه

نظریه بازی مجموعه­ای از ابزارهای تحلیلی است که به فهم پدیده­های به وجود آمده در هنگام برهم­کنش میان تصمیم­گیرندگان کمک می­نماید (سامتی و همکاران، 1390). کاربرد نظریه بازی[1] (GT) در اقتصاد از سال 1944 با انتشار کتاب "نظریه بازی­ها و رفتار اقتصادی" وون نیومن و مورگنسترن[2] آغاز و با سرعتی شگفت­آور در ارائه انواع مشتقه آن رواج یافت. از آن جمله می­توان نظریه بازی­های تکاملی[3] (EGT) را برشمرد که در آن فرض عقلانیت کامل بازیکنان در GT کلاسیک (به­معنای برخورداری از دانش کامل درباره محیط و جدول بازدهی‌ها)، تعدیل می­گردد.

در این راستا، مطالعه "تکامل و نظریه بازی­ها" جان مینارد اسمیت[4] به ­منزله پایه و اساس مطالعات EGT شناخته شده است. در این مطالعه اسمیت، بر اساس شرایط بیولوژیکی لحاظ شده، قضاوت در مورد عقلانی بودن یا نبودن انتخاب­های بازیکنان را غیر­ممکن عنوان کرده و لذا بهینه­سازی رفتار فردی بر اساس دانش محدود عوامل مطرح می­گردد (اسمیت، 1982).

همچنین اسمیت مفاهیم اساسی EGT از جمله استراتژی پایدار تکاملی[5] (ESS) را معرفی می­نماید. چنین استراتژی در مفهوم تعادلی به ­معنای پایداری در برابر جهش­های مهاجم بالقوه است. در واقع، اسمیت با تفکیک نظریه بازی از کاربردهای اقتصادی، از آن به­ عنوان ابزاری برای تحلیل تکامل بیولوژیکی بهره گرفته و از این­رو، با معرفی نظریه بازی تکاملی، برازنده‌ترین ابزارها برای مدل­بندی پویایی­های تعاملات استراتژیک را فراهم نموده است.

از سوی دیگر، نوع تصمیم­گیری عوامل با عقلانیت محدود در بازی­های تکاملی بر اساس «فرایند یادگیری» تدریجی بازیکنان صورت می­گیرد. فرایند یادگیری عوامل در بازی­های تکاملی نیز با استفاده از الگوریتم­های تکاملی[6] (EA) محقق می­گردد. الگوریتم­های تکاملی بنا به تعریف آلکمد[7] (2004) عبارتند از: تکنیک­های مبتنی بر علوم زیستی که با استفاده از مفهوم "بقای اصلح" برای تکامل رفتار هر عامل، منجر به انطباق بهتر رفتار آن عامل با محیط       (برای مثال یک بازار خاص) می­شوند. بنابراین، الگوریتم­های تکاملی، روش نوینی را برای مدل­بندی یادگیری و تصمیم­گیری عوامل با عقلانیت محدود ارائه می­دهند. در مجموع، هدف یک الگوریتم تکاملی بهینه­سازی تابع هدف برازندگی است (دوبوز و همکاران[8]، 2010).

از جمله الگوریتم­های تکاملی می­توان به الگوریتم­ ژنتیک[9] (GA) اشاره کرد که اغلب در اقتصاد به­ منظور توصیف چارچوبی مناسب و دقیق از یادگیری اجتماعی مورد استفاده قرار می­گیرد. برخی مطالعات برجسته در مورد استفاده از الگوریتم ژنتیک برای فرمول­بندی دقیق رفتار عوامل در بازی­های اقتصادی عبارتند از: مطالعه آکسلرود[10] در سال 1981 و نیز مطالعه مارکس[11] در سال 1992. همچنین الگوریتم­های ژنتیک در مورد مسائل داخلی و چالش­برانگیز اقتصادی نیز به­ کار گرفته شده و به ­لحاظ خواص پویایی و تصادفی­­بودن آن­ها در اقتصاد مورد توجه قرار گرفته­اند.

از این­رو، رویکرد مطالعه حاضر، استفاده از الگوریتم ژنتیک به ­عنوان یک الگوریتم تکاملی برای حل یک بازی تکاملی است. هدف اصلی در این پژوهش با توجه به ماهیت چندبعدی بازارهای جهانی نفت و محیط اقتصادی پیچیده آن و عدم امکان دست‌یابی به نتایج تجربی قطعی و معین، بهره­گیری از روشی نوین و کاربردی است که بر مبنای فرایندهای "یادگیری" و "جهش" رفتار عوامل باشد. لذا در این­ خصوص به ارائه ابزاری روش­شناختی با ترکیب EGT و الگوریتم ژنتیک پرداخته می­شود.

این نوع تحلیل بازار انرژی متفاوت از تکنیک­های مدل­سازی اقتصادی متعارف مبتنی بر فرض عقلانیت کامل عوامل می­باشد. در این راستا به ­منظور جستجوی استراتژی­های بهینه اعضای اوپک، با لحاظ دو کشور "ایران" و "عربستان" به ­عنوان نمایندگان دو گروه عوامل ناهمگن اوپک و با استفاده از رویکرد تکاملی، بازی معمای زندانی تکراری بین این دو بازیکن در محیطی شبیه­سازی شده مطرح می­شود. همچنین 12 نوع استراتژی تصادفی برای هر یک از بازیکنان در نظر گرفته شده که طی 20 اجرای الگوریتم ژنتیک با هدف دستیابی به استراتژی بهینه حداکثر­کننده امتیاز فردی و نیز حداقل­کننده امتیاز رقیب در بازی معمای زندانی تکراری[12] (IPD) توسط اعضاء انتخاب می­شوند. طبق نتایج گزارش شده با استفاده از الگوریتم تکاملی، استراتژی TFT با بالاترین بازدهی به ­عنوان استراتژی بهینه در مقایسه با دیگر استراتژی­ها در هر دو بازی برای هر یک از بازیکنان شناخته شده است.

از آنجا که با حل معمای زندانی در قالب کلاسیک، عدم همکاری به­ عنوان تعادل پایدار شناخته شده و با یک­بار انجام بازی ظهور و تکامل همکاری غیر­ممکن به­نظر می­رسد. لکن با تکرار بازی در راندهای مختلف و لذا با تکیه بر حافظه بازیکنان در به­خاطر سپردن حرکت­های رقیب در دوره­های پیشین و عکس­العمل به آن­ها با عمل مقابله به­مثل، استراتژی همکاری می‌تواند به ­عنوان تعادل پایدار تکاملی شناخته شود.

بنابراین، چارچوب مطالعه حاضر مبنی بر مروری بر ادبیات، بررسی مبانی نظری ساختار الگوریتم ژنتیک و ارائه مفاهیم پویایی و تکاملی بودن آن می­باشد. در ادامه، روش تحقیق بر اساس مبانی مطالعه بهینه­سازی تکاملی آکسلرود (1981) ارائه شده و نهایتاً مدل­سازی IPD با استفاده از الگوریتم تکاملی و نتایج امتیازات استراتژی­های 12 گانه طی رقابت شبیه­سازی شده دو کشور توسط الگوریتم ژنتیک ارائه می­شوند.

 

2. مروری بر ادبیات

2-1. اوپک؛ ساختار و سیاست­ها

نفت به ­عنوان منبع انرژی اصلی و برخوردار از صرفه­های بزرگ اقتصادی ناشی از پایین بودن هزینه­ها، در مقایسه با سوخت­های دیگر از میزان انرژی بالاتری نیز برخوردار است. به­ عبارتی دارای انرژی حدود 50 درصد بیشتر از زغال­سنگ بر پایه وزن و 170 برابر بیشتر از گاز طبیعی بر مبنای حجم می­باشد. لذا نفت­ خام و محصولات پالایش شده بزرگ­ترین بخش را در تجارت بین­الملل چه بر اساس ارزش یا حجم تشکیل می­دهند. از این­رو، تجارت نفت به‌­عنوان تجارتی استراتژیک، بین­المللی و بسیار حائز اهمیت شناخته شده است (جمشیدیرودباری، 1387).

ظهور اوپک به­ عنوان قدرتی فزاینده در بازاهای جهانی نفت، به ­درستی بیانگر این واقعیت است که کشورهای عضو اوپک سهم بزرگی از صادرات جهانی نفت را عهده­دار بوده و مالک بخش عمده ذخایر نفتی موجود در زمین می­باشند؛ به­ طوری­ که بیش از 75 درصد از ذخایر نفت جهان در 12 کشور عضو اوپک متمرکز شده و لذا تقریباً تمامی کشورها به اوپک وابسته‌اند. حتی می­توان گفت خود کشورهای عضو اوپک نیز به ­بقای این سازمان وابسته­اند؛ زیرا بیشتر اعضاء بین 80 تا 99 درصد به درآمدهای ارزی ناشی از فروش نفت وابستگی داشته و این توانایی سازمان است که قیمت­ها را حفظ نموده تا حداکثر درآمد را برای اعضایش به ارمغان آورد (عبدلی و ناخدا، 1388).

با ­وجود این، تنوع کشورهای عضو اوپک و تفاوت­ دیدگاه‌های سیاسی، اقتصادی، اجتماعی و فرهنگی، به ­عنوان منبع ضعف بالقوه­ای در ائتلاف محسوب می­شود؛ زیرا اعضای اوپک برحسب جمعیت، نیازهای مالی و سرمایه­گذاری، ذخایر نفتی، ظرفیت تولید نفت و درآمد سرانه، تفاوت­های چشم­گیری با یکدیگر دارند. بنابراین، درون این سازمان دودستگی بین کشورهای عضو قابل بررسی است (گریفین وویلهابر[13]، 1994).

گروه کشورهای اوپک بر اساس تفاوت­های ماهوی به دو گروه قابل تقسیم هستند. گروه اول به ­رهبری عربستان سعودی شامل کشورهای کویت، قطر، امارات متحده عربی و لیبی است که از درآمد سرانه بالا، ذخایر اثبات شده سرانه قابل­توجه برخوردار هستند (کشورهای سازگار با آینده). این کشورها همان­گونه که تاریخ نشان می­دهد طرفدار افزایش عرضه کل نفت در تلاش برای تعدیل قیمت­ها و حفظ تقاضای بلندمدت بوده­اند.

گروه دوم نیز شامل کشورهای ایران، نیجریه، عراق، ونزوئلا، آنگولا و الجزایر (کشورهای سازگار با حال) خواستار این هستند که اوپک کل تولیداتش را به ­نفع افزایش سریع قیمت­ها محدود نماید. این کشورها دارای درآمد سرانه پایین، صادرات سرانه نفتی کم و جمعیت زیاد هستند؛ در حالی­ که کشورهای گروه اول به توسعه حیاتی بلندمدت و پایدار می­اندیشند، کشورهای با درآمد پایین تنها خواستار پوشش مشکلات مالی کوتاه­مدت خود هستند (عبدلی و ناخدا، 1388).

درهمین راستا، اقدام به تهدید در جهت بی­ثباتی و تجدیدنظر در تصمیمات حکومت­های خود می­کنند. در مجموع می­توان گفت از آنجا که کشورهای صبور از عامل تنزیل بالاتری نسبت به کشورهای کم­صبر برخوردارند؛ لذا دارای موقعیت­های چانه­زنی مستحکم­تری نیز می­باشند. به ­عبارت دیگر، عامل تنزیل در گروه اول یا L بزرگ­تر از گروه دوم S می­باشد؛  (عبدلی و ماجد، 1391).

از سوی دیگر، نحوه تقسیم منافع حاصل از تشکیل ائتلاف، از طریق تعیین سهمیه تولید برای هر عضو صورت می­پذیرد. لذا،  بازیکنان برای دست‌یابی به سهمیه و سود فروش بیشتر با یکدیگر مذاکره و گاه مجادله می­نمایند. از این­رو، نحوه تقسیم منافع بین اعضای اوپک و استراتژی­های مورد استفاده هر گروه در مواجه با گروه مقابل و نیز نحوه عمل در مورد میزان تولیدات و تعاملات هر یک از اعضاء با سایرین را می­توان در چارچوب نظریه بازی­ها مورد بررسی قرار داد.

2-2. پیشینه تحقیق

تاکنون مطالعات بسیاری مربوط به­نوع شکل­گیری اوپک و ظهور آن به­ عنوان نیروی غالب در بازارهای جهانی نفت با استفاده از رویکردهای متنوع مدل­سازی کارتل صورت گرفته­اند. برای مثال رویکرد نش- کورنو توسط پولاسکی[14] (1992) برای مدل­سازی اوپک به ­عنوان گروهی متحد بیشینه­خواه و بدون لحاظ نزاع و اختلاف میان اعضاء به­کار گرفته شد.

اما پیندیک[15] (1978) اوپک را به دو گروه کشورهای پس‌اندازکننده و مصرف‌کننده (کشورهای با نیاز شدید به نقدینگی) تقسیم کرده و توجه و تمرکز خود را بر قدرت چانه‌زنی این دو گروه معطوف ساخته است. در برخی مطالعات نیز مانند الحاجی و هوتنر[16] (2000) با لحاظ عدم ناهمگونی بین اعضای اوپک، عربستان سعودی را به ­عنوان بنگاه غالب در کارتل معرفی کرده­اند.

از سوی دیگر، برخی مطالعاتی که در چارچوب الگوی انحصاری به ­بررسی رفتار اوپک و طرف عرضه پرداخته­اند، در قالب نظریه بازی­ها صورت گرفته­اند .دوتا[17] (1999) با استفاده از رویکرد نظریه بازی به بررسی پویایی­های درونی کشورهای اوپک طی زمان پرداخته است.

گریفین و جیانگ[18] (1997) در مطالعات خود نشان داده­اند که با تشکیل کارتل و تبعیت از اصل همکاری در قالب بازی، منافع همه اعضای اوپک در مقایسه با وضعیت رقابتی افزایش می­یابد. اما اعضاء همواره دارای این انگیزه­اند که با فریب­دادن دیگران و افزایش تولید مازاد بر سهمیه، منافع کوتاه­مدت خود را افزایش دهند. اما ترس از رفتار تلافی­جویانه سایر اعضاء در قبال فریب­کاری آن­ها و لذا کاهش منافع بلندمدت مانع از این اقدام می­گردد.

 آلت[19] و همکاران (1998) گرچه مستقیماً به موضوع تقسیم منافع اوپک نپرداخته­اند، اما به­بحث درباره عکس­العمل­های استراتژیک بین تولیدکنندگان مهم نفتی پرداخته­اند. آن­ها استدلال می­کنند که عربستان سعودی با داشتن هزینه­های پایین تولید و ذخایر نفتی زیاد، به شرطی قادر به­تحمل دوره­های رکود قیمت نفت است که احتمال دهد از این بابت شهرتی نصیبش شده که به‌تبع آن کسب منفعت می­کند. همچنین کشورهای نسبتاً ثروتمند اوپک مانند عربستان سعودی در زمینه مسئله همکاری اوپک به ­دنبال راه­حلی بلندمدت و با ریسک کم هستند تا آن را جایگزین تنبیه اعضای خاطی کنند.

عبدلی و ناخدا (1388) نیز در مطالعه خود با توجه به مدل چانه‌زنی و اجرای فیرون نشان داده­اند که بازیکنان بی‌صبر اوپک پیامدهای بهتری نسبت به رقیبان صبورتر خود به دست می‌آورند. لذا چنین استدلال می­کنند که دو نوع کشور در اوپک وجود دارد: گروهی با سرانه ذخایر بالا (کشورهای سازگار با آینده) و گروهی با سرانه ذخایر پائین (کشورهای سازگار با حال). نتایج بر اساس تفاوت نرخ تنزیل دو گروه کشورها حاکی از آن است که همکاری لزوماً در نتیجه افزایش مجازات اتفاق نمی‌افتد، بلکه گاهی اوقات افزایش پاداش­ها روش کاراتری است که همکاری را موجب شود.

این نتایج در مطالعه عبدلی و ماجد (1391) نیز تأیید شده است. در این مطالعه، نظریه همکاری بین دو گروه ناهمگن اوپک در قالب بازی معمای زندانی از طریق برآورد مدل با آثار ثابت و استفاده از داده­های تابلویی مورد سنجش واقع شده است. نتایج بیانگر آنند که در چانه‌زنی­ها و مذاکرات، برخی اعضاء برای به­سرعت به توافق رسیدن با باج­دهی و کوتاه­آمدن از مواضع سیاستی خود موجب تداوم عمر ائتلاف اوپک می­گردند.

ناجی میدانی و رحیمی (1395) نیز در راستای ارائه مکانیسم قیمت­گذاری بهینه انرژی خصوصاً گاز بر اساس نظریه بازی­های همکارانه و غیر همکارانه سناریوهای مختلفی تدوین و مدل­سازی نموده­اند.

با ­وجود این، در دهه اخیر با توجه به کارایی و کاربرد رویکردها و الگوریتم­های تکاملی در حل مسائل کاربردی اقتصادی و تصمیم­سازی، رویکرد به این روش رو به ­رشد است؛ به ‌طوری که برخی محققان مانند دیوید[20] (1999)، ریچمن[21] (2001)، تویلز[22] (2007) و جینتیس[23] (2009) ضمن بررسی ادبیات موضوع EGT به ارائه کاربردهای اقتصادی آن پرداخته­اند.

بروان[24] (1987) همچنین کاربردهای بازی تکاملی را برای هر تعداد از بازیکنان و مجموعه استراتژی­های پیوسته به­کار برد. ویگاند[25] و همکاران (2002) از EGT به ­عنوان ابزاری برای سنجش الگوریتم­های تکاملی همکارانه استفاده کرده­اند.

اما در زمینه به­کارگیری نظریه بازی­های تکاملی برای مدل­سازی معمای زندانی، می­­توان مطالعه کاراندیکار[26] و همکاران (1998) را برشمرد که با مدل­سازی بازی­های همکارانه و معمای زندانی تکاملی نتایجی مبنی بر رخداد همکاری با تناوب بیشتر نسبت به عدم همکاری در تکرار معمای زندانی را گزارش کردند.

پایه تحلیل تکاملی معمای زندانی تکراری را نیز می­توان در مطالعه آکسلرود (1981) جستجو کرد. آکسلرود با استفاده از الگوریتم تکاملی به ارائه استراتژی­های بهینه حل بازی پرداخته است. وی نخستین محققی بود که یافتن استراتژی­های بهینه برای حل مسئله حداکثرسازی منافع را با استفاده از الگوریتم تکاملی (EA) مورد بررسی قرار داد. نتایج مطالعه وی حاکی از آن بود که استراتژی "همکاری" در بلندمدت در مقایسه با "عدم همکاری"، برنده بازی معمای زندانی خواهد بود.

روبنشتاین و آزبورن[27] (1994) در مطالعه خود نتایج مسابقات آکسلرود را نقد کرده و عوامل بسیاری را مانند طول کروموزوم، طول بازی و لحاظ استراتژی­هایی به­جز همکاری یا عدم همکاری محض را به ­عنوان استراتژی رقیب از جمله موانع بروز همه جانبه رفتار همکارانه در بازی عنوان نموده­اند. این نقد و سایر مطالعات انتقادی از این­دست منصفانه به قضاوت مطالعه آکسلرود پرداخته­اند؛ اما مطالعه وی تاکنون به­ عنوان مناسب­ترین رویکرد تکاملی شناخته شده است.

 

3. مبانی نظری الگوریتم تکاملی برای مدل­بندی اقتصادی

الگوریتم­های تکاملی ابتدا برای استفاده در مسائل بهینه­سازی طراحی شده و ادبیات گسترده­ای نیز در زمینه تنظیم این نوع الگوریتم­ها برای کارایی بهتر در مسائل بهینه­سازی وجود دارد (بک و همکاران[28]، 1997؛ توسان و راس[29]، 1998)؛ اما استفاده از الگوریتم­های تکاملی در حوزه شبیه­سازی مسائل اقتصادی، بازنگری در دستورالعمل­های پیشین را ناگزیر می­سازد.

از جمله مهم­ترین تمایزات بین مدل­سازی­ اقتصادی و تکاملی می­توان به نوع تنظیمات پارامترها در الگوریتم ژنتیک اشاره نمود؛ زیرا شبیه­سازی­های اقتصادی متعارف، اغلب تنظیمات پارامتری برای الگوریتم­های ژنتیکی را مستقیماً از مقادیر پارامترهای مدل اقتصادی اقتباس می­نمایند (دیوید، 1999)؛ در حالی­ که بر اساس مطالعه ریچمن (2001) این عمل کارایی GA و لذا یادگیری عوامل را محدود می­نماید. در واقع در این نوع رویکرد، جمعیت تکاملی به ­عنوان جمعیتی از "عوامل" تلقی شده و لذا طی اجرای الگوریتم، این عامل­ها هستند که تکامل می­یابند. بنابراین، عامل­های بهتر، طی فرایند تکاملی شناسایی شده و به نسل­های بعدی به ­عنوان عاملان مولد منتقل می­شوند. از این­رو، با وجود جمعیت محدود، امکان همگرایی زودرس الگوریتم ژنتیک دور از انتظار نیست.

از سویی دیگر، در رویکرد اقتصادی، ارائه تعبیر اقتصادی مستقیم از یک پارامتر الگوریتم تکاملی (مانند اندازه جمعیت یا نرخ باز تولید) غالباً دشوار است. لذا به­ منظور حصول نتایج به­ لحاظ اعتباری قوی­تر، پارامترهای مدل اقتصادی و پارامترهای الگوریتم تکاملی می­بایست به طور جداگانه درنظر گرفته شوند. بنابراین، در رویکرد دوم، جمعیت تکاملی به­ عنوان جمعیتی از "استراتژی­های" قابل انتخاب توسط عوامل شناخته می­شوند (آلکمد، 2004). به­ عبارت دیگر، جمعیت کروموزوم­ها همچون استخری از استراتژی­هایی تلقی می­شود که عوامل می‌توانند از بین آن­ها انتخاب نمایند. از مزایای این امر می­توان به انتخاب استراتژی­های مشابه توسط چندین عامل و نیز بهبود کارایی الگوریتم تکاملی و یادگیری عوامل اشاره کرد.

 

جدول 1. مقایسه الگوریتم­های اقتصادی و تکاملی

رویکرد اقتصادی

رویکرد تکاملی

کروموزوم = عامل

کروموزوم = استراتژی

اندازه جمعیت توسط تعداد عوامل اقتصادی تعیین می­شود

اندازه جمعیت از طریق فرایند یادگیری الگوریتم­های تکاملی تعیین می­شود

منبع: آلکمد (2004)

 

در الگوریتم تکاملی روند کار بدین ­صورت است که ابتدا جمعیتی از استراتژی­های تصادفی اولیه تولید شده که در واقع جمعیت کروموزوم­ها یا ژنوتایپ­ها هستند. سپس رفتاری که هر عامل با به­کارگیری یک استراتژی خاص بروز می­دهد، روی کروموزم کد­گذاری می‌شود.

نحوه کدگذاری کروموزوم­ها در اغلب مطالعات به­صورت باینری (صفر و یک) می­باشد. در روند تکامل، جمعیت کروموزوم­های اولیه متعاقباً در نسل­های بعدی از طریق انتخاب استراتژی بهتر با بازدهی تجمعی بیشتر و انتقال آن­ها به نسل و جمعیت بعدی به ­عنوان مولد استراتژی­های جدید دچار تغییر شده و بهبود می­یابند. از این­رو، بر مبنای اصل بقای اصلح، استراتژی­هایی با برازندگی کم از جمعیت حذف شده و استراتژی­های مولد و دارای بازدهی زیاد در جمعیت تکثیر می­یابند (بک و همکاران، 1997). در مجموع، می­توان گفت عمومیت الگوریتم­های تکاملی در شبیه­سازی­های اقتصادی ناشی از توانمندی آنان در مدل­سازی سیستم‌های بزرگی از عوامل با عقلانیت محدود و با رویکرد خرد به کلان[30] است (میچل[31]، 1996).

3-1. الگوریتم ژنتیک؛ بازی پویای تکاملی

الگوریتم ژنتیک، تکنیک محاسباتی تکاملی است که در سال 1989 توسط گلدبرگ[32] با جزئیات معرفی گردید. در الگوریتم ژنتیک، راه­حل ممکن یک مسئله به­صورت رشته­ای از بیت­ها نشان داده می­شود که طی فرایندی تصادفی مکرراً به یکدیگر تبدیل می­شوند. این رشته­های بیتی "افراد ژنتیکی" خوانده می­شوند. به هر فرد ژنتیکی یک برازندگی تخصیص می­یابد که بیانگر میزان کارایی آن فرد در حل مسئله پیش­روست. با مقایسه برازندگی­های حاصل توسط عوامل، نسل­های جدید به­طور مکرر با عملگرهای «انتخـاب[33]»، «بازتولید[34]» و «جهش[35]» ایجاد می­شوند.

فرایندهای بازتولید و جهش، برخی از استراتژی­های اقتصادی والدین را به­منظور یافتن استراتژی­های جدید (فرزندان) مورد استفاده قرار داده و آن­ها را با استراتژی­های فرزندان جایگزین می­نمایند. لذا این امر موجب افزایش تنوع استراتژی­ها درون جمعیت جاری می‌گردد. از سوی دیگر، عملگر ژنتیکی انتخاب، تعداد استراتژی­های اقتصادی متفاوت را درون جمعیت کاهش می­دهد. بدین­صورت که ابتدا میزان بازدهی اقتصادی هر استراتژی را ارزیابی نموده و از این­رو، اغلب به­ عنوان ایفاکننده نقش بازار یا آشکار­کننده اطلاعات عمل می­کند.

سپس برخی از استراتژی­ها را برای حضور در نسل بعدی برمی­گزیند. شانس هر استراتژی i برای انتخاب از جمعیت جاری  و تکثیر در دوره بعدی بستگی به برازندگی نسبی آن یعنی ، به جمع بازدهی کلیه استراتژی­ها در جمعیت یعنی  دارد؛ به­طوری که بازدهی‌های نسبی بالاتر منجر به احتمال بازتولیدی بیشتر می­شوند. بنابراین، تعداد استراتژی‌های متفاوت درون یک جمعیت با این فرایند مجدداً کاهش می­یابد (ریچمن، 2001).

3-1-1. الگوریتم ژنتیک اقتصادی به­عنوان بازی پویا

الگوریتم­های ژنتیک در واقع فرایندهای مدل­سازی الگوریتم­های یادگیری اجتماعی به­ واسطه تعاملات درون جمعیتی از عوامل اقتصادی هستند.

گفتنی است مشخصه مشترک هر دو موقعیت­های نظری بازی و مدل­های یادگیری GA وابستگی به وضعیت است. به­علاوه، بازی در هر دور از الگوریتم ژنتیک تکرار شده و لذا به هر فرد شانسی برای اصلاح و بهبود استراتژی خود داده می­شود. بنابراین، می­توان نتیجه­گیری کرد که در واقع هر الگوریتم ژنتیک اقتصادی تک­جمعیتی یک بازی پویاست؛ بدین­ صورت که در یک الگوریتم ژنتیک با جمعیتی متشکل از M فرد ژنتیکی که هر یک دارای رشته بیتی به طول L  هستند، هر فرد ژنتیکی بر مبنای کدبندی باینری نمایانگر یکی از  مقادیر متفاوت یا به­عبارتی مجموعه استراتژی­های در دسترس S است (. با توجه به اینکه در فرایند یادگیری الگوریتم ژنتیک، هیچ رقیب مستقیمی در برابر یک استراتژی منفرد وجود ندارد، لذا هر عامل اقتصادی در تلاش برای یافتن یک استراتژی  است که به­خوبی هرچه تمام­تر نسبت به تمامی جمعیت و محیط خود عمل کند.

3-1-2. الگوریتم ژنتیک اقتصادی به­عنوان بازی تکاملی

از آنجا که الگوریتم­های ژنتیک به­عنوان مدل­هایی از یادگیری اقتصادی شناخته شده­اند، آن­ها را همچنین می­توان به­خوبی به­ عنوان فرایندهای تکاملی در نظر گرفت (دیوید، 1999).

در نگاه اول، در واقع این ساختار الگوریتم­های ژنتیک و مدل­های تکاملی است که مبین رابطه­ای نزدیک بین GA­ها و نظریه اقتصادی تکاملی است؛ چرا که هر دو مواجه با ساختار مرکزی جمعیتی از عوامل اقتصادی متعامل در محیط­های اقتصادی بوده و برای بهینه­سازی رفتار فردی تلاش می­کنند. به­ منظور ارائه شواهدی مبنی بر صحت این گزاره بر اساس تعریف فریدمن[36] سه مشخصه برای یک بازی تکاملی ارائه می­شود (فریدمن، 1998):

الف) در بازی­های تکاملی، استراتژی‌های با بازدهی بالاتر طی زمان جایگزین استراتژی‌های با بازدهی کمتر می­شوند. جایگزینی استراتژی­ها در الگوریتم­های ژنتیک فرایندی از تغییر در جمعیت ژنتیکی طی زمان است. این فرایند با استفاده از عملگرهای «انتخاب» و «بازتولید» و با تکثیر استراتژی­های با بازدهی بالاتر به­وقوع می­پیوندد. لذا شرط اول فریدمن تأمین می­شود.

ب) در طی فرایند جایگزینی استراتژی­ها اینرسی وجود دارد. اینرسی به ­معنای آن است که تغییرات در رفتار عوامل به ­صورت بسیار ناگهانی اتفاق نمی­افتند. در الگوریتم ژنتیک نیز عملگر جهش تنها منجر به تغییرات بسیار ناگهانی در بیت­های تکی از رشته بیت کد­گذاری شده مربوط به یک استراتژی اقتصادی با احتمال کوچک [37] می­گردد. از این­رو، شرط دوم فریدمن نیز برقرار است.

ج) در بازی­های تکاملی، بازیکنان به­ طور عمدی بر اقدامات آینده سایر بازیکنان تأثیر­گذار نیستند. عوامل در یک مدل GA اقتصادی دانش بسیار محدودی دارند. هنگامی­که یک عامل اقتصادی آخرین استراتژی اقتصادی­اش را شکل می­دهد درباره برنامه­های سایر عوامل در جمعیت خود هیچ نمی­داند. از این­رو، همه آنچه که یک عامل اقتصادی در یک مدل GA می­تواند انجام دهد، نهایت تلاش خود برای تطبیق با اقدامات گذشته رقبا یا به­ عبارت دیگر، انجام فرایند یادگیری است؛ لذا شرط سوم فریدمن نیز برقرار است.

بنابراین، با توجه به موارد فـوق می­توان نتیجه گرفت که مدل­های یادگیری GA اقتصادی را می­توان به­ عنوان بازی­های تکاملی تفسیر نمود. با این مزیت که الگوریتم­های ژنتیک مفهوم روشنی از نفی و حذف استراتژی­های جهش و مهاجم از جمعیت را در مقایسه با مفهوم استراتژی­های پایدار تکاملی در بازی­های تکاملی ارائه می­دهند (ویبول[38]، 1995).

 

4.مدل‌سازی تکاملی IPD

برای حل بازی­های تکراری خصوصاً IPD بر اساس مطالعه آکسلرود می­توان از الگوریتم­های تکاملی، مبتنی بر فرایند یادگیری عوامل طی هر دوره از بازی استفاده نمود. از این­رو، بررسی و تحلیل تطابق رفتار عوامل اقتصادی یا بازیکنان بازی IPD در قالب الگوریتم­های تکاملی در این بخش ارائه خواهد شد.

معمای زندانی یکی از مشهورترین بازی­های استراتژیک است که به­طور گسترده در علوم اقتصادی، سیاسی، یادگیری ماشینی و بیولوژی تکاملی مورد مطالعه قرار گرفته است. در این بازی هر دو بازیکن حرکت­های خود را به­طور همزمان و مستقل از انتخاب دیگری برمی‌گزینند.

در ماتریس بازدهی، زمانی­که دو بازیکن با یکدیگر همکاری[39] کرده به مقداری برابر R پاداش داده می­شوند. زمانی ­که تنها یک بازیکن همکاری را نقض کند[40]، وی بالاترین بازدهی ممکن (T) و رقیبش کم­ترین بازدهی ممکن (S) را دریافت می­کنند. همچنین در صورتی ­که هیچ یک از بازیکنان با دیگری همکاری ننماید هر دو به میزان P جریمه خواهند شد. در ماتریس بازدهی T > R > Q > S و نیز R > (T + S)/2 است. بدین­معنا که وسوسه فریب­کاری و نقض همکاری می­بایست بازدهی بیشتری نسبت به همکاری داشته باشد.

 

جدول 2. بازدهی­های کلاسیک معمای زندانی

استراتژی

بازیکن 2

همکاری(C)

عدم همکاری(D)

بازیکن 1

همکاری (C)

R=3   R=3

T=5   S=0

عدم همکاری (D)

S=0   T=5

P=1   P=1

منبع: تویلز، 2007

 

از آنجا که در این بازی، بازیکن اول (D,C) را به (C,C) و آن را به (D,D) و نهایتاً به (C,D) ترجیح داده و در مقابل بازیکن دوم (C,D) را به (C,C) و آن را به (D,D) و نهایتاً آن را به (D,C) ترجیح می­دهد لذا تضاد موقعیتی بین بازیکنان ایجاد می­شود (روبنشتاین و آزبورن، 1994). با حل بازی مشخص می­شود که معمای زندانی یک تعادل نش اکید متقارن و منحصر به­فرد عدم همکاری طرفین یا (D,D) دارد.

به­ عبارت دیگر، در هر تعادل کامل زیر بازی[41]، هر بازیکن استراتژی D را در هر بار بازی بدون در نظر­ گرفتن تاریخچه بازی اتخاذ می­کند. لذا D تنها استراتژی پایدار تکاملی بازی است که در آن هیچ بازیکنی انگیزه­ای برای تغییر استراتژی خود ندارد.

در حالی ­که اگر هر دو بازیکن بازی را برای تعداد دوره­های نامتناهی تکرار کنند و بازدهی هر بازیکن برابر؛ مجموع تنزیل شده از بازدهی­ها در هر نوبت از بازی باشد، آنگاه با انباشت بازدهی­ها در هر دور ممکن است تعادلی بهتر از (D,D) وجود داشته باشد.

از این­رو، رویکرد تکاملی IPD مبتنی بر الگوریتم ژنتیک، با بررسی تکامل استراتژی­ها طی اجرای الگوریتم برای راندها و نیز نسل­های مختلف این امر را ممکن می­سازد.

این رویکرد تکاملی مبتنی بر ارائه استراتژی­ها به­ عنوان کروموزوم ها بوده که هر یک از آن‌ها حامل رفتاری کدگذاری شده از عوامل بازی می­باشند. هدف هر اجرای الگوریتم ژنتیک، تکامل استراتژی­های ممکن با بالاترین امتیاز یا بازدهی است. بدین­منظور، در این مقاله در میان استراتژی­های مطرح برای حل معمای زندانی تکراری، رقابتی ترتیب داده شده که در آن هر استراتژی در برابر دیگر استراتژی­ها در بازی IPD قرار گرفته و برای کسب بازدهی بیشتر تلاش می­کند.

بر اساس برازندگی حاصل توسط هر استراتژی در هر نسل، نسبتی از استراتژی­های موفق توسط عملگر «انتخاب» GA برگزیده و با استفاده از عملگرهای «بازتولید» و «جهش» به نسل بعدی منتقل می­شوند. بدین­ صورت، جمعیتی جدید از استراتژی­ها برای اجراهای بعدی GA شکل می­گیرند. در نهایت فرایند فوق در صورت لزوم به­منظور سازگاری با مدل­سازی IPD تکرار می­گردد.

4-1. کد­گذاری استراتژی­های تکاملی

آکسلرود در مطالعه خود روشی ساده اما فوق­العاده را برای کد­گذاری استراتژی­ها اتخاذ نمود که به­ عنوان روشی استاندارد از حل مسئله IPD در این مطالعه از آن استفاده می­گردد. برای هر حرکت در بازی، چهار امکان وجود دارد که عبارتند از:

-         هر دو بازیکن همکاری کنند (CC یا R برای پاداش)؛

-         بازیکن دوم عدم همکاری در حالی­که اولی همکاری کند (CD یا S برای فریفته‌ شدن)؛

-         بازیکن اول نقض همکاری و دومی همکاری کند (DC یا T برای فریب­کاری)؛

-         هر دو بازیکن همکاری نکنند (DD یا P برای تنبیه).

در واقع هر کروموزوم حاوی نتایج ممکن 3 حرکت قبلی یک بازیکن است. لذا با برخورداری از اطلاعات سه حرکت قبلی یک بازیکن به­ منظور کد­گذاری یک استراتژی خاص، رشته رفتاری مربوطه را در نظر گرفته و آن را به ­عنوان یک رشته سه حرفی کد­گذاری می­نماییم. برای مثال، RRR ارائه­گر نتیجه­ای است که دو بازیکن در طی سه حرکت قبلی همکاری ­کنند و یا SSP بیان­کننده نتیجه­ای است که بازیکن اول دوبار با وجود عدم همکاری رقیب، همکاری کرده اما نهایتاً همکاری را نقض نموده است. سپس این رشته سه حرفی به­منظور تولید عددی بین 0 تا 63 (4× 4× 4= 64) مورد استفاده قرار گرفته و به­عنوان عددی در مبنای 4 تفسیر می­گردد. یک راه ممکن جهت نمایش، تخصیص مقداری عددی به هر یک از کاراکترها به­روش زیر است:

 
   

 

 

 

 

از این­رو، برای مثال در این روش، PPP به عدد صفر رمزگشایی شده و SSR به عدد (40×3 +41×2 +42×2) = 43.

با دانش از 3 حرکت قبلی برای حل این مسئله که بازیکن در حرکت جاری C یا D را بازی خواهد کرد، از الگوریتم ژنتیک (GA) استفاده می­شود. بدین­ صورت که با وجود دو گزینه C یا D در هر 64 موقعیت و مکان ممکن، یک استراتژی خاص می­تواند به­ وسیله یک رشته باینری 64 بیتی از C و D در الگوریتم ژنتیک تعریف شود که در آن، iامین C یا D متناظر با iامین رشته رفتاری دیکته شده توسط رشته سه حرفی از 3 حرکت قبلی است.

به­ عبارت دیگر، یک حرکت خاص، بستگی به 3 حرکت قبلی خود دارد. هرچند 3 حرکت اول در یک بازی به­ روش یاد شده تعریف نمی­شوند. بلکه برای لحاظ این حرکت­ها، 6 بیت (با C و D اولیه تصادفی) به رشته 64 بیتی فوق برای تعیین وضعیت یک استراتژی خاص با فرض در مورد رفتار آغازین بازی افزوده می­گردد.

در مجموع می­توان گفت هر رشته 70 بیتی بیانگر یک استراتژی خاص است که 64 بیت اول برای قاعده­ها و 6 بیت بعدی برای مکان­ها استفاده می­شوند. جدول (3) یک رشته الگوریتم تکاملی (EA) نمونه را نشان می­دهد. برای رشته نمونه در جدول یاد شده، کد سه حرفی PTP برای 3 حرکت اولیه به­دست می­آید. این رشته به عدد 4 رمزگشایی شده و به معنای آن است که بازیکن مورد­نظر می­بایست (1+4) یا پنجمین حرکت معین شده خود را در رشته 64 بیتی الگوریتم ژنتیک بازی کند[42].

جدول 3. کدگذاری یک استراتژی نمونه IPD

با وجود آگاهی از 3 حرکت قبلی به­شرح ذیل:

 

بازیکن اول

بازیکن دوم

کد گذاری

حرکت اول

D

D

P

حرکت دوم

D

C

T

حرکت سوم

D

D

P

 نتیجه: بازیکن اول پنجمین موقعیت را انتخاب می کند

منبع: یافته­های پژوهش

 

جدول (4) روش حل رشته کدگذاری شده فوق را به ­روش تکاملی نشان می­دهد. در این مورد بیت پنجم بیانگر C بوده، لذا بازیکن همکاری خواهد کرد.

 

جدول 4. حل استراتژی کدگذاری شده به­روش تکاملی

روش حل با الگوریتم تکاملی:                                                               

                                                       

                           

                                                             6 موقعیت                        64 موقعیت     

                                                     (برای 3 حرکت اولیه)

                                                                                                               نتیجه: C

منبع: یافته­های پژوهش

 

با استفاده از طرح کد­گذاری فوق برای یافتن استراتژی­های بهینه و نیز به­کارگیری الگوریتم ژنتیک، می­توان به استراتژی­هایی با بیشترین بازدهی دست یافت.

4-2. شبیه­سازی استراتژی­های تکاملی

به­ منظور شبیه­سازی استراتژی­های مطرح در بازی معمای زندانی تکراری، ابتدا استراتژی­ها کدگذاری شده و سپس در روند تکاملی به ­رقابت با یکدیگر می­پردازند. طرح کدگذاری استفاده شده در این مقاله مشابه مطالعه آکسلرود است با این تفاوت که EA به­ کار گرفته شده در مقاله حاضر یافتن دو نوع استراتژی بهینه هدف را مد­نظر دارد. این دو هدف عبارتند از: 1) حداکثرسازی امتیاز فردی و 2) حداقل­سازی امتیاز رقیب. باید گفت که امتیاز رقیب به ­معنای امتیاز تجمعی همه رقباست، زمانی ­که در مقابل یک استراتژی خاص بازی می­نمایند. هر دو اجرای تک­هدفه EA به ­منظور یافتن استراتژی­های بهینه در این مطالعه صورت پذیرفته­اند. شبیه­سازی برای هر دو الگوریتم بر اساس ماتریس بازدهی جدول 2 شامل مراحل زیر است:

در هر نسل، تعدادی معین از استراتژی­ها تولید می­شوند و هر استراتژی ملزم به بازی در برابر 12 بازیکن (استراتژی) دیگر است. هر بازی از 150 حرکت تشکیل شده است.  به عبارت دیگر، هر فرد ژنتیکی معمای زندانی را برای 150 بار در برابر 12 رقیب در محیط خود بازی می­کند.

برای محیط­های ایستاتیک این امر به­معنای بازی کردن در برابر تعداد از پیش تعیین­شده استراتژی­های شناخته شده است. در حالی­ که در محیط­های تکاملی این به ­معنای 150 بار بازی کردن با رقیب­های به­ طور تصادفی انتخاب شده از زیر مجموعه رقباست. در پایان، استراتژی­ها به­ترتیبی کاهنده، بر اساس امتیازات تجمعی آن­ها دسته­بندی شده و لذا نسل بعدی با استفاده از عملگرهای بازتولید و جهش شکل می­گیرد.

در واقع، هدف هر اجرای الگوریتم ژنتیک تکامل استراتژی­هایی با بالاترین بازدهی ممکن و انتقال استراتژی­های کاراتر به نسل­های بعدی است. استراتژی­های تکاملی شبیه­سازی شده در بازی IPD مطرح در این مطالعه عبارتند از:

  1. استراتژی همیشه همکاری (All C): در هر حرکت بازیکن همواره همکاری می­کند.
  2. استراتژی همیشه نقض همکاری (All D): در هر حرکت بازیکن همواره نقض همکاری می­کند.
  3. استراتژی مقابله به­مثل (TFT).: بازیکن در حرکت اول همکاری نموده و سپس آخرین حرکت رقیب را عیناً تکرار می­کند.

 

 

 

 

 
   

 

 

 

 

شکل 1.نمایش استراتژی TFT

 

  1. استراتژی  TFTبدبین: مانند TFT بوده با این تفاوت که بازیکن در حرکت اول نقض همکاری می­کند.
  2. استراتژی ماشه: بازیکن تا زمانی­که سایر بازیکنان همکاری نمایند، همکاری نموده و در غیر این­ صورت همواره نقض همکاری می­کند.
  3. استراتژی بازیکن تصادفی: بازیکن همکاری یا نقض همکاری را با احتمال یکسان به ­طور تصادفی انتخاب می­کند.
  4. استراتژی بازی CD به­ طور تناوبی: بازیکن C و D را به ­صورت تناوبی بازی می­کند.
  5. استراتژی بازی DDC به ­طور تناوبی: بازیکن D، D و C را به ­صورت تناوبی بازی می‌کند.
  6. استراتژی بازی CCD به­ طور تناوبی: بازیکن C، C و D را به ­صورت تناوبی بازی می­کند.
  7. استراتژی TF2T یا عمل متقابل پس از دو بار نقض همکاری رقیب: مانند TFT بازیکن در حرکت اول همکاری نموده و پس از دو بار نقض همکاری رقیب، همکاری را نقض می­کند.
  8. استراتژی اکثریت موافق: بازیکن در حرکت اول همکاری نموده و به بازی ادامه می‌دهد تا زمانی که تعداد دفعاتی که رقیب همکاری کرده بزرگ­تر یا برابر با تعداد دفعات نقض همکاری او باشد، در غیر این ­صورت همکاری نمی­کند.
  9. استراتژی اکثریت مخالف: در حرکت اول همکاری نکرده و به بازی ادامه می­دهد تا زمانی­ که تعداد دفعاتی که رقیب نقض همکاری کرده بزرگ­تر یا برابر با تعداد دفعات همکاری وی باشد، در غیر این ­صورت همکاری می­کند.

روشن است که در یک بازی خاص، با استفاده از مقادیر بازدهی نشان داده شده در ماتریس بازدهی جدول 2، یک بازیکن می­تواند حداکثر امتیاز 750=150×5 را کسب کند. بدین­صورت که وی همواره نقض همکاری و رقیب همواره همکاری نماید. همچنین حداقل امتیاز او چنانچه خود همیشه همکاری و رقیب همواره نقض همکاری نماید، برابر با صفر است. در حالی ­که هیچ­یک از این دو حد آستانه معمولاً در عمل قابل دستیابی نیستند. بر اساس مطالعه دیوید (1999)، سنجش کاربردی­تر در مورد یک استراتژی در بازی IPD عبارت است از محاسبه میزان نزدیکی آن به امتیاز معیار[43].

بنا بر­ تعریف، امتیاز معیار، امتیازی است که در آن هر دو بازیکن همواره همکاری نمایند. با توجه به جدول (2) مسئله IPD، امتیاز معیار برابر 450=150×3 در این مورد است. برای مثال اگر امتیاز یک بازیکن به­ طور میانگین در برابر همه بازیکنانی که با آن­ها بازی کرده 400 باشد، آنگاه می­توان گفت که او 89 درصد از امتیاز معیار را کسب نموده است. این روش برای برشمردن امتیازات یک بازیکن بسیار مناسب بوده است؛ زیرا مستقل از مقادیر موجود در ماتریس بازدهی‌های استفاده شده و نیز تعداد بازیکنان رقیب می­باشد. از این­رو، در تمامی نتایج ارائه شده در این مطالعه امتیـازات به ­صورت درصدی از امتیاز معیار درنظر گرفته شـده‌اند.

 

5. نتایج شبیه­سازی بازی IPDبا استفاده از الگوریتم تکاملی

دو اجرای مستقل الگوریتم تکاملی در این مطالعه به­منظور حداکثرسازی امتیاز فردی بازیکن و نیز حداقل­سازی امتیاز رقیب به­کار رفته است. از آنجا که راه­حل­ها با استفاده از رشته بیت ارائه می­شوند؛ لذا از عملگرهای «انتخاب باینری»، عملگر «تقاطع تک نقطه­ای[44]» و عملگر «جهش بیتی» استفاده کرده­ایم. بدین ­صورت که در تمامی شبیه­سازی‌ها احتمال تقاطع 9/0، و احتمال جهش 70/1 می­باشند. بنابراین به­ طور متوسط تنها یک بیت در یک رشته 70 بیتی در واحد زمان جهش می­یابد. برای هر اجرا اندازه جمعیت متناظر با 40 و تعداد نسل­ها 20000 نسل تنظیم گردید. نمودار امتیازات برای 200 نسل اول، با اجرای EA در نمودارهای (1 و 2) نشان داده شده­اند. با این تفاوت ­که در نمودار (1) امتیاز فردی حداکثر شده و در نمودار (2) امتیاز رقیب حداقل می­گردد.

 

 

Generation

 

نمودار 1. برازندگی متوسط (نمودار زیرین) و حداکثر برازندگی فردی (نمودار فوقانی)

 

برای حداکثر­سازی امتیاز فردی با استفاده از EA، سنجش برازندگی نمونه بر اساس امتیاز فردی است. از این­رو، امتیازات مربوط به برازندگی می­بایست حداکثر گردد. همان­طور که از نمودار (1) مشخص است؛ در مورد اول برازندگی متوسط به­طور یکنواخت طی نسل­ها افزایش یافته و در حدود نسل 200، امتیاز فردی با برازندگی 441 حداکثر شده و بدین­ترتیب 98 درصد امتیاز معیار حاصل می­گردد. زمانی­که EA برای نسل­های بیشتر اجرا می­شود، حداکثر برازندگی به عدد 446 (1/99% امتیاز معیار) همگرا شده و دیگر بیش از آن افزایش نمی­یابد. این روند در مطالعات بهینه­سازی با استفاده از GA­ها معمول است. بدین­ صورت که روند فزاینده برازندگی در ابتدا سریع و در ادامه نسبتاً کند اتفاق می­افتد. زیرا یافتن راه­حل­های بهتر نزدیک به راه­حل بهینه به­مرور در مسائل بهینه­سازی دشوارتر می­شود.

زمانی­که امتیاز رقیب با الگوریتم تکاملی حداقل می­گردد، کمترین برازندگی در 112 یعنی 9/24 درصد از امتیاز معیار به­دست می­آید. این نتیجه مبنی بر حداقل کارایی و مشابه با اتخاذ استراتژی همواره عدم همکاری است.

 

 

 

 

Generation

نمودار 2. برازندگی متوسط (نمودار فوقانی) و حداقل برازندگی رقیب (نمودار زیرین)

 

برای مقایسه امتیازات استراتژی­های مطرح در IPD نفتی، جدول­های 5 و 6 نتایج را برای 20 اجرای GA از هر دو رقابت نشان می­دهند. در رقابت نخست 12 استراتژی شرکت نموده و "TFT" استراتژی برنده با امتیاز متوسط 385 (85% امتیاز معیار) شناخته می­شود. دلیل این امر  توانمندی استراتژی TFT در پاداش دادن به رقیب همکاری­کننده و نیز تنبیه وی به­ دلیل عدم همکاری­اش است. در واقع، تکرار بازی، وجود استراتژی TFT را همانند تعاملات در دنیای واقعی، ممکن می­سازد؛ زیرا بازیکنان قادر خواهند بود تا بر اساس رفتارهای پیشین یکدیگر تصمیم به پاداش یا تنبیه رقیب نمایند.

زمانی­که امتیاز رقیب به­تنهایی با EA حداقل می­گردد، باز هم استراتژی TFT به ­عنوان استراتژی با بیشترین بازدهی در این رقابت معرفی می­شود؛ در حالی­ که استراتژی همیشه عدم همکاری (All D) به­ عنوان ناکاراترین استراتژی با پایین­ترین میزان بازدهی شناخته می­شود. سایر استراتژی­ها که به­خوبی TFT حائز امتیازات بالا هستند، عبارتند از: استراتژی اکثریت موافق، استراتژی ماشه و نیز استراتژی TF2T که گونه­ای مشتق شده از استراتژی TFT است.

همچنین، استراتژی همواره عدم‌همکاری در رقابت­ها با کمترین بازدهی به­ عنوان ناکاراترین استراتژی شناخته شده است.

 

 

جدول 5. امتیازات استراتژی­های IPDبرای حداکثر­سازی امتیاز فردی

امتیاز متوسط

استراتژی بازیکن

رتبه

390

TFT

1

375

اکثریت موافق

2

367

TF2T

3

363

استراتژی ماشه

4

360

همیشه همکاری

5

355

بازی تناوبی CCD

6

335

بازی تناوبی CD

7

330

اکثریت مخالف

8

318

بازیکن تصادفی

9

310

TFT بدبین

10

296

همیشه عدم همکاری

11

295

بازی تناوبی DDC

12

منبع: یافته­های پژوهش[45]

 

جدول 6. امتیازات استراتژی­های IPDبرای حداقل­سازی امتیاز رقیب

امتیاز متوسط

استراتژی بازیکن

رتبه

385

TFT

1

375

اکثریت موافق

2

373

استراتژی ماشه

3

372

TF2T

4

364

همیشه همکاری

5

355

بازی تناوبی CCD

6

348

بازی تناوبی CD

7

330

بازیکن تصادفی

8

315

اکثریت مخالف

9

310

بازی تناوبی DDC

10

308

TFT بدبین

11

306

همیشه عدم همکاری

12

منبع: یافته­های پژوهش

 

6. جمع­بندی و نتیجه­گیری

در محیط­های پیچیده، افراد به­ طور کامل قادر به تحلیل موقعیت­ها و اتخاذ استراتژی­های بهینه خود نیستند. اما چنین انتظار می­رود که بتوانند استراتژی خود را طی زمان بر اساس اینکه کدام­یک موثر و کدام ناکاراست، تطبیق دهند. قیاسی مناسب برای فرایند انطباق، تکامل بیولوژیکی است. در تکامل، استراتژی­های نسبتاً موثر گسترده­تر شده و استراتژی­های کمتر مؤثر به­تدریج از جمعیت حذف می­گردند.

شایان ذکر است که نگرش مقاله حاضر به بررسی نحوه تکامل و ظهور همکاری در موقعیت‌های رقابتی اختصاص داشته و هدف آن ارائه مدلی جدید از جستجوی استراتژی­های بهینه در بازی معمای زندانی تکراری است. لذا بر مبنای توانمندی فرایند تکامل و الگوریتم‌های تکاملی در تولید استراتژی­هایی با کارایی بهتر در بازی­های تکراری، در این مطالعه به بررسی استراتژی­های بهینه در بازی معمای زندانی تکراری (IPD) با استفاده از الگوریتم ژنتیک پرداخته شده است. بدین منظور با شرکت دو کشور ایران و عربستان به ­عنوان نمایندگان دو گروه ناهمگن اوپک و لحاظ 12 نوع استراتژی مطرح در IPD، بازی تکاملی با دو رویکرد؛ حداکثرسازی امتیازات فردی و نیز حداقل­سازی امتیاز رقیب شبیه‌سازی و اجرا گردید.

نتایج دو رقابت بین 12 نوع استراتژی با رویکرد تکاملی حاکی از آن است که استراتژی "عمل متقابل" یا “TFT” به­ عنوان استراتژی بهینه حائز بالاترین بازدهی در حداکثرسازی امتیازات فردی بازیکن و نیز حداقل­سازی امتیاز رقیب وی  شناخته شده است. این استراتژی در رقابت­ها، به­دلیل توانمندی منحصر به­فرد خود در پاداش دادن به رقیب همکاری­کننده و نیز تنبیه وی به­ دلیل عدم همکاری­اش امتیاز بالایی کسب می­کند. دستیابی به استراتژی بهینه در رقابت دو گروه ناهمگن اوپک دال بر همکاری اولیه و سپس مقابله به مثل رفتاری است. اتخاذ چنین استراتژی ضمن حفظ موقعیت بازیکن، با ایجاد تهدید قابل قبول و معتبر مانع رخداد تنازع و عدم همکاری بین اعضاء خواهد شد.

سایر استراتژی­ها که به­خوبی TFT حائز امتیازات بالا هستند عبارتند از: استراتژی اکثریت موافق، استراتژی ماشه و نیز استراتژی TF2T که گونه­ای مشتق شده از استراتژی TFT است. همچنین، استراتژی همواره عدم همکاری در رقابت­ها با کمترین بازدهی به­ عنوان ناکاراترین استراتژی شناخته شده است.



[1] Game Theory

[2] Von Neumann  & Morgenstern

[3] Evolutionary Game Theory

[4] John Maynard Smith

[5] Evolutionarily Stable Strategy

[6] Evolutionary Algorithms

[7] Alkemade

[8] Duboz Et Al

[9] Genetic Algorithm

[10] Axelrod

[11] Marks

[12] Iterated Prisoner's Dilemma

[13] Griffin & Vielhaber

[14] Polasky

[15] Pindyck

[16] Alhajji & Huettner

[17] Dutta

[18] Griffin & Xiong

[19] Alt et al.

[20] Dawid

[21] Riechmann

[22] Tuyls

[23] Gintis

[24] Brown

[25] Wiegand

[26] Karandikar

[27] Rubenstein & Osborne

[28] Bäck et al.

[29] Tuson & Ross

[30] From The Bottom up Approch

[31] Mitchell

[32] Goldberg

[33] Selection

[34] Reproduction

[35] Mutation

[36] Friedman

 [37]احتمال جهش  بطور نرمال عددی بین 001/0 تا 01/0 است.

[38] Weibull

[39] Coperate (C)

[40] Defect (D)

[41] Subgame Perfect Equilibrium

1 از آنجا که مقادیر رمزگشایی از صفر آغاز می­شوند، لذا با عدد یک جمع می­شوند.

[43] Benchmark score

[44] Single-Point Crossover Operator

 [45]با استفاده از نرم افزار Matlab

 

منابع

-       جمشیدی رودباری، مستانه (1387). بررسی علل تطابق نیافتن مدل­های اقتصادی رفتار اوپک در بلندمدت از دیدگاه تحولات بازار نفت و ویژگی­های این سازمان. فصلنامهپژوهش­هاوسیاست‌هایاقتصادی، 47: 63-25.

-    سامتی، مرتضی، فتح­آبادی، مهدی، کسرایی، کامران (1390). تعادل استراتژی مختلط نش و بازیکنان فوتبال: مطالعه موردی ضربات پنالتی. فصلنامه مدلسازی اقتصادی، 5(15): 66-47.

-       عبدلی، قهرمان، ماجد، وحید (1391). بررسی رفتار اوپک در قالب یک بازی همکارانه. تحقیقات مدل‌سازی اقتصادی، 2(7): 50-27.

-    عبدلی، قهرمان، ناخدا، محمد جواد (1388). کاربرد نظریه فیرون در بررسی پایداری اوپک: با رویکرد نظریه بازی­های تکراری. فصلنامه مطالعات اقتصاد انرژی، 6 (20): 56-33.

-    ناجی میدانی، علی اکبر، رحیمی، غلامعلی (1395). مدل قیمت­گذاری صادرات گاز طبیعی از طریق خط لوله بر اساس نظریه بازی­ها. فصلنامه مدلسازی اقتصادی، 2(34): 49-29.

 

-        Alhajji, A. F., & Huettner, D. (2000). OPEC and world crude oil markets from 1973 to 1994: Cartel, Oligopoly, or Competitive? The Energy Journal, 21(3): 31-60.

-        Alkemade, F. (2004). Evolutionary agent-based economics. Eindhoven: Technische Universiteit Eindhoven.

-        Alt, J. E., Calvert, L., & Humes, B. D. (1988). Reputation and Hegemonic Stability: A Game-Theoretic Analysis. American Political Science Review, 82(2): 445-66.

-        Axelrod, R., & Hamilton, W. (1981). The evolution of cooperation. Science, 211(4489): 1390–96.

-        Back, T., Fogel, D., & Michalewicz, Z. (1997). Handbook of evolutionary computation. Oxford University Press.

-        Brown, J. S. (1987). A theory for the evolutionary game. Theoretical Population Biology, 31(1): 140-166.

-        Dawid, H. (1999). Adaptive learning by genetic algorithms: analytical results and applications to economic models. Springer Verlag, Berlin. 2nd Edition.

-        Duboz, R., Versmisse, D., Travers M., Ramat, E., & Shin, Y. J. (2010). Application of an evolutionary algorithm to the inverse parameter estimation of an individual-based model. Ecological Modelling, 221(5): 840–849.

-        Dutta, P. K. (1999). Strategies and Games: Theory and Practice. The MIT Press.

-        Friedman, D. (1998). On economic applications of evolutionary game theory. Journal of Evolutionary Economics, 8(1): 15-43.

-        Gintis, H. (2009). Game theory evolving: a problem-centered introduction to modeling strategic interaction. Princeton, NJ: Princeton University Press.

-        Goldberg, D. E. (1989). Genetic algorithms in search, optimization, and machine learning. Addison-Wesley, Reading, MA.

-        Griffin, J., & Vielhaber, L. (1994). OPEC production: the missing link. The Energy Journal, 15:32- 115.

-        Griffin, J. M., & Xiong, W. (1997). The Incentive to Cheat: An Empirical Analysis of OPEC. Journal of Law and Economics, 40(2): 289-316.

-        Karandikar, R. Mookherjee, D., Ray, D., & Vega- Redondo, F. (1998). Evolving aspirations and cooperation. Journal of Ecoomic Theory, 80(2): 292-331.

-        Marks, R. E. (1992). Breeding hybrid strategies: Optimal behaviour for oligopolists. Journal of Evolutionary Economics, 2, 17- 38.

-        Mitchell, M. (1996). An introduction to genetic algorithms. London MIT Press, Cambridge, MA.

-        Pindyck, R. S. (1978). Gains to producers from the cartelization ofexhaustible resources. The Review of Economics and Statistics, 60(2): 238–251.

-        Polasky, S. (1992). Do oil producers act as 'Oil'igopolists? Journal of Environmental Economics and Management, 23(3): 216-247.

-        Riechmann, T. (2001). Genetic algorithm learning and evolutionary games. Journal of Economic Dynamics and Control, 25(6): 1019-1037.

-        Rubenstein, M., & Osborne, M. (1994). A course in game theory. Cambridge, MA: MIT Press.

-        Smith, J. M. (1982). Evolution and the theory of games. Cambridge, UK: Cambridge University Press.

-        Tuson, P., & Ross, P. (1998). Adapting operator settings in genetic algorithms. Evolutionary computation, 6(2): 161-184.

-        Tuyls, K., & Parsons, S. (2007). What evolutionary game theory tells us about multiagent learning. Artificial Intelligence, 171(7): 406–416.

-        Von Neumann, J., & Morgenstern, O. (1944). Theory of games and economic behavior. Princeton University Press.

-        Weibull, J. W. (1995). Evolutionary game theory. London: MIT Press, Cambridge, MA.

-        Wiegand, R. P., Liles, C. L., & De Jong, K. A. (2002). Analyzing Cooperative Coevolution with Evolutionary Game Theory. In Proceedings of Congress on Evolutionary Computation (CEC-02), edited by D. Fogel. IEEE Press.