後知恵による経験値再生と多様性に基づく軌道・目標選択