游戏概览:
你控制一个智能体(类似游戏角色),他背着一个背包。
游戏在一个 大小为 size × size 的二维网格地图上进行(比如,一个棋盘)。
智能体的起始位置是随机的,并且只能停留在网格的整数坐标上(每个格子)。
地图详情:
在游戏开始时,每个网格格子上都有一张字符图片,这些字符来自一个数据集。
你的目标是识别这些字符的类别,合理选择行动,以最大化累计得分。
可选动作:
每一轮,你可以从以下 五个动作 中选择一个:
向下移动一格(动作 0)
向右移动一格(动作 1)
向上移动一格(动作 2)
向左移动一格(动作 3)
收集字符(动作 4)
收集字符:
收集字符意味着:如果你当前所在的格子还没有收集过,你就可以将该格子的字符类别放入背包。
每个位置的字符图片只能被收集一次。
如果你尝试在已经收集过的格子再次收集,你会受到负分惩罚。
字符消除:
当你背包中某一类别的字符数量达到 4 个时,这些字符会自动消除:
背包中该类别的所有字符都会被清空。
你会获得正分奖励。
得分与惩罚:
移动(上、下、左、右):
每次移动都会消耗体力,导致扣分。
扣分计算方式为:- (0.1 + 背包中字符总数 ÷ size²)。
背包中携带的字符越多,移动消耗的分数就越大。
例如,如果背包里有 10 个字符,地图大小为 12,则移动一次扣分为:- (0.1 + 10 ÷ 144)。
收集动作:
在未收集过的格子收集字符,如果没有发生消除,分数不变。
在已收集过的格子再次收集,你会扣 2 分。
当收集导致字符消除时(即收集到第 4 个同类别字符),你会获得 1 分。
全部消除奖励:
如果你成功消除了地图上所有的字符,你会额外获得 100 分的奖励。
游戏结束与惩罚:
游戏有一个最大回合数限制,为 4 × size × size。
如果你在达到最大回合数后游戏结束,你会受到额外的分数惩罚:
惩罚分数 = 3 ×(背包中剩余的字符数 + 地图上未消除的字符数)。
也就是说,游戏结束时剩余的字符越多,惩罚越大。
游戏目标:
策略性地移动和收集字符,尽可能地提高你的总得分。
计划你的路径,尽量减少不必要的移动,降低体力消耗(扣分)。
优先收集和消除字符,因为消除可以获得积分,并清空背包减少移动消耗。
避免在已收集的格子重复收集,以免受到额外的扣分惩罚。
争取在有限的回合内清除所有字符,获取高额的全图消除奖励。
管理好背包中的字符数量,因为携带过多字符会增加移动扣分。
提示与策略:
平衡行动成本与收益:移动会扣分,收集也可能扣分或得分,合理选择行动很重要。
背包管理:及时消除字符,减轻背包负担,降低移动消耗。
路线规划:设计高效的收集路径,避免走回头路。
时间管理:注意回合限制,确保在规定回合内完成尽可能多的消除,避免游戏结束时的高额惩罚。
全局视野:以清除全图为目标,获取额外的 100 分奖励。