¥ÎPython¹ê§@±j¤Æ¾Ç²ß¡U¨Ï¥ÎTensorFlow»POpenAI Gym ( ÁcÅé ¦r) |
§@ªÌ¡GSudharsan Ravichandiran | Ãþ§O¡G1. -> µ{¦¡³]p -> Python |
ĶªÌ¡GCAVEDU±Ð¨|¹Î¶¤ ´¿¦N¥° |
¥Xª©ªÀ¡GùÖ®p¥Xª© | 3dWoo®Ñ¸¹¡G 51193 ¸ß°Ý®ÑÄy½Ð»¡¥X¦¹®Ñ¸¹¡I¡i¯Ê®Ñ¡j NT©w»ù¡G 520 ¤¸ §é¦©»ù¡G 390 ¤¸
|
¥Xª©¤é¡G5/27/2019 |
¶¼Æ¡G306 |
¥úºÐ¼Æ¡G0 |
|
¯¸ªø±ÀÂË¡G  |
¦L¨ê¡G¶Â¥Õ¦L¨ê | »y¨t¡G ( ÁcÅé ª© ) |
|
¥[¤JÁʪ«¨® ¢x¥[¨ì§Úªº³Ì·R (½Ð¥ýµn¤J·|û) |
ISBN¡G9789865021412 |
§@ªÌ§Ç¡@|¡@ĶªÌ§Ç¡@|¡@«e¨¥¡@|¡@¤º®e²¤¶¡@|¡@¥Ø¿ý¡@|¡@§Ç |
(²Åé®Ñ¤W©Òz¤§¤U¸ü³sµ²¯Ó®É¶O¥\, ®¤¤£¾A¥Î¦b¥xÆW, YŪªÌ»Ýn½Ð¦Û¦æ¹Á¸Õ, ®¤¤£«OÃÒ) |
§@ªÌ§Ç¡G |
ĶªÌ§Ç¡G |
«e¨¥¡G |
¤º®e²¤¶¡G±j¤Æ¾Ç²ß¥i»¡¬O¯à¦Û§Úºt¶iªº¾÷¾¹¾Ç²ß¡A¯à±a»â§Ú̹F¨ì¯u¥¿ªº¤H¤u´¼¼z¡C¥»®Ñ¦nŪ¤S®e©ö¤W¤â¡A¹B¥Î¤F¤j¶qPython½d¨Ò¨Ó±qÀY¸ÑÄÀ©Ò¦³ªF¦è¡C¥»®Ñ±q±j¤Æ¾Ç²ßªºÂ²¤¶¶}©l¡A±µµÛ¬OOpenAI Gym»PTensorFlow¡C±z·|»{ÃѦUºØRLºtºâªk»P«nÆ[©À¡A¨Ò¦pMarkov¨Mµ¦¹Lµ{¡B»X¦a¥dùªk»P°ÊºA³W¹º¡A¥]¬A»ùÈ¡¥N»Pµ¦²¤¡¥N¡C¥»®Ñ´£¨Ñ¤F«D±`Â×´Iªº½d¨ÒÀ°§U±z»{ÃѦUºØ²`«×±j¤Æ¾Ç²ßºtºâªk¡A¨Ò¦pÄvª§DQN¡BDRQN¡BA3C¡BPPO»PTRPO¡C±zÁÙ·|¾Ç¨ì·Q¹³¼W±j¥N²z¡B³z¹L¤HÃþ°¾¦n¨Ó¾Ç²ß¡BDQfD¡BHER¥H¤Î§ó¦h±j¤Æ¾Ç²ßªº³Ì·sµo®i¡C¥»®Ñºë±m¤º®e¡G¡D²z¸Ñ±j¤Æ¾Ç²ß¤èªk¡Bºtºâªk»P«n¤¸¯Àªº¬ÛÃö°ò¦¡D¨Ï¥ÎOpenAI Gym»PTensorFlow¨Ó°V½m¥N²z¡D²z¸ÑMarkov¨Mµ¦¹Lµ{¡BBellman³Ì¨Î¤Æ»PTD¾Ç²ß¡D¹B¥Î¦hºØºtºâªk¨Ó¸Ñ¨M¦hÁu¦¡¦Y¨¤¤l¦Ñªê°ÝÃD¡D¼ô±x¦UºØ²`«×¾Ç²ßºtºâªk¡A¦pRNN¡BLSTM¡BCNN»P¨äÀ³¥Î¡D¨Ï¥ÎDRQNºtºâªk¨Ó«Ø¸m´¼¯à¥N²z¨Óª±·´·À¾Ô¤h¹CÀ¸¡D¨Ï¥ÎDDPG¨Ó±Ð¾É¥N²z¨Óª±¤ë²y«_ÀI¹CÀ¸¡D¨Ï¥ÎÄvª§DQN¨Ó°V½m¥N²z¨Óª±Áɨ®¹CÀ¸ |
¥Ø¿ý¡G²Ä¤@³¹¡U»{Ãѱj¤Æ¾Ç²ß ¤¶²Ð¦ó¿×±j¤Æ¾Ç²ß¥H¤Î¨ä¹B§@ì²z¡C¤¶²Ð±j¤Æ¾Ç²ßªº¦UºØ¤¸¯À¡A¦p¥N²z¡BÀô¹Ò¡Bµ¦²¤»P¼Ò«¬¡A¨Ã±a»âŪªÌ»{ÃѥΩó±j¤Æ¾Ç²ßªº¦UºØÀô¹Ò¡B¥»O»P¨ç¦¡®w¡A¥H¤Î±j¤Æ¾Ç²ßªº¤@¨ÇÀ³¥Î¡C
²Ä¤G³¹¡U»{ÃÑOpenAI»PTensorFlow «Ø¸m¨Ï¥Î±j¤Æ¾Ç²ßªº¹q¸£Àô¹Ò¡A¥]¬AAnaconda¡BDocker¡BOpenAI Gym¡BUniverse»PTensorFlowªº¦w¸Ë³]©w¡A¨Ã»¡©ú¦p¦ó¦bOpenAI Gym¤¤¨Ó¼ÒÀÀ¥N²z¡A¥H¤Î¦p¦ó«Ø¸m¤@Ó·|ª±¹qª±¹CÀ¸ªº¾÷¾¹¤Hµ{¦¡¡C¥t¥~¤]·|¸Ñ»¡TensorFlowªº°ò¦Æ[©À¥H¤Î¦p¦ó¨Ï¥ÎTensorBoard¨Ó¶i¦æµøı¤Æ¾Þ§@¡C
²Ä¤T³¹¡UMarkov¨Mµ¦¹Lµ{»P°ÊºA³W¹º ±q¤¶²Ð¦ó¿×MarkovÁå»PMarkov¬yµ{¶}©l¡A»¡©ú¦p¦ó¨Ï¥ÎMarkov¨Mµ¦¬yµ{¨Ó¹ï±j¤Æ¾Ç²ß°ÝÃD¨Ó«Ø¼Ò¡C±µµÛ¬O¤@¨Ç«nªº°ò¥»·§©À¡A¨Ò¦p»ùȨç¼Æ¡BQ¨ç¼Æ»PBellman¤èµ{¦¡¡CµM«á¤¶²Ð°ÊºA³W¹º¥H¤Î¦p¦ó¹B¥Î»ùÈ¡¥N»Pµ¦²¤¡¥N¨Ó¸Ñ¨Má´ò°ÝÃD¡C
²Ä¥|³¹¡U¨Ï¥ÎMonte Carlo¤èªk¨Óª±¹CÀ¸ ¤¶²Ð¤FMonte Carloªk»P¤£¦PÃþ«¬ªº Monte Carlo¹w´úªk¡A¦pº¦¸«ô³XMC»P¨C¦¸«ô³XMC¡A¨Ã»¡©ú¦p¦ó¨Ï¥ÎMonte Carloªk¨Óª±¤G¤Q¤@ÂI³o¶µ¼³§JµP¹CÀ¸¡C³Ì«á·|¤¶²Ð²{®É»PÂ÷½u³o¨âºØ¤£¦PªºMonte Carlo±±¨î¤èªk¡C
²Ä¤³¹¡U®É¶¡®t¤À¾Ç²ß ¤¶²Ð®É¶¡®t¤À¡]TD¡^¾Ç²ß¡BTD¹w´ú»PTDªº§Y®É/Â÷½u±±¨îªk¡A¦pQ¾Ç²ß»PSARSA¡C¨Ã»¡©ú¦p¦ó¨Ï¥ÎQ¾Ç²ß»PSARSA¨Ó¸Ñ¨Mpµ{¨®¸ü«È°ÝÃD¡C
²Ä¤»³¹¡U¦hÁu¦¡¦Y¨¤¤l¦Ñªê¾÷°ÝÃD n°Q½×ªº¬O±j¤Æ¾Ç²ßªº¸g¨å°ÝÃD¡G¦hÁu¦¡¦Y¨¤¤l¦Ñªê¾÷¡]MAB¡^°ÝÃD¡A¤]ºÙ¬°kÁu¦¡¦Y¨¤¤l¦Ñªê¾÷¡]MAB¡^°ÝÃD¡C¤¶²Ð¦p¦ó¨Ï¥Î¦UºØ±´¯Áµ¦²¤¨Ó¸Ñ¨M³oÓ°ÝÃD¡A¨Ò¦pepsilon-³g°ý¡Bsoftmax±´¯Á¡BUCB»P´ö´¶´Ë¨ú¼Ë¡C¥»³¹«á¥b¤]·|¤¶²Ð¦p¦ó¹B¥ÎMAB¨Ó¹ï¨Ï¥ÎªÌÅã¥Ü¥¿½Tªº¼s§i¾î´T¡C
²Ä¤C³¹¡U²`«×¾Ç²ßªº°ò¦·§©À ¤¶²Ð²`«×¾Ç²ßªº«nÆ[©À¡Cº¥ý¡A»¡©ú¦ó¿×¯«¸gºô¸ô¡A±µµÛ¬O¤£¦PÃþ«¬ªº¯«¸gºô¸ô¡A¦pRNN¡BLSTM»PCNNµ¥¡C¥»³¹±N¹ê§@¦p¦ó¦Û°Ê²£¥Íºqµü»P¤ÀÃþ®É©|²£«~¡C
²Ä¤K³¹¡U¨Ï¥Î²`«×Qºô¸ô¨Óª±Atari¹CÀ¸ ¤¶²Ð¤F¤@®M³Ì±`¥Îªº²`«×±j¤Æ¾Ç²ßºtºâªk¡G²`«×Qºô¸ô¡]DQN¡^¡C±µµÛ¤¶²ÐDQNªº¦UÓ¤¸¥ó¡A¨Ã»¡©ú¦p¦ó¹B¥ÎDQN¨Ó«Ø¸m¥N²z¨Óª±Atari¹CÀ¸¡C³Ì«á¤¶²Ð¤@¨Ç·s«¬ªºDQN¬[ºc¡A¦pÂù¼hDQN»PÄvª§DQN¡C
²Ä¤E³¹¡U¨Ï¥Î²`«×´`ÀôQºô¸ô¨Óª±·´·À¾Ô¤h ¤¶²Ð²`«×´`ÀôQºô¸ô¡]DRQN¡^¡A¨Ã»¡©ú¥¦»PDQNªº®t²§¡C¥»³¹·|¹B¥ÎDRQN¨Ó«Ø¸m¥N²z¨Óª±·´·À¾Ô¤h¹CÀ¸¡C¦P®É¤¶²Ð²`«×±Mª`´`ÀôQºô¸ô¡A¥¦¦bDRQN¬[ºc¤¤¥[¤J¤F±Mª`¾÷¨î¡C
²Ä¤Q³¹¡U«D¦P¨BÀu¶Õ°Ê§@µû»ùºô¸ô ¤¶²Ð¤F«D¦P¨BÀu¶Õ°Ê§@µû»ùºô¸ô¡]A3C¡^ªº¹B§@ì²z¡C§Ú̱N±a»â§A²`¤J¤F¸ÑA3Cªº¬[ºc¨Ã¾Ç·|¦p¦ó¥Î¥¦¨Ó«Ø¸m·|ª¦¤sªº¥N²z¡C
²Ä¤Q¤@³¹¡Uµ¦²¤±è«×»P³Ì¨Î¤Æ »¡©úµ¦²¤±è«×¦p¦ó¦b¤£»ÝnQ¨ç¼Æªº«e´£¤U¡AÀ°§U§Ú̧ä¨ì¥¿½Tªºµ¦²¤¡C¦P®ÉÁÙ·|¤¶²Ð²`«×½T©w©Êµ¦²¤±è«×ªk¡A¥H¤Î³Ì·sªºµ¦²¤³Ì¨Î¤Æ¤èªk¡A¦p«H¿à°ìµ¦²¤³Ì¨Î¤Æ»PªñºÝµ¦²¤³Ì¨Î¤Æ¡C
²Ä¤Q¤G³¹ ¨Ï¥ÎDQN¨Óª±Áɨ®¹CÀ¸ ¥»³¹±N±a»â§A¹B¥ÎÄvª§DQN¨Ó«Ø¸m¥N²z¡AÅý¥¦¾Ç·|ª±Áɨ®¹CÀ¸¡C
²Ä¤Q¤T³¹ ªñ´Áµo®i»P¤U¤@¨B ¤¶²Ð±j¤Æ¾Ç²ß»â°ì¤¤ªº¦UºØ³Ì·sµo®i¡A¨Ò¦p·Q¹³¼W±j¥N²z¡B±q¤HÃþ°¾¦n¨Ó¾Ç²ß¡B¥Ñ¥Ü½d¨Ó¶i¦æªº²`«×Q¾Ç²ß¥H¤Î¨Æ«á¸gÅç¦^©ñµ¥µ¥¡AµM«á½Í¨ì¤F¤£¦Pªº±j¤Æ¾Ç²ß¤èªk¡A¦p¼h¦¸±j¤Æ¾Ç²ß»P°f¦V±j¤Æ¾Ç²ß¡C
|
§Ç¡G |