接下来就是比较核心的业务分析了,这部分未来应该会有很多不同的ai给出不同的模型,我只是抛砖引玉,dalao轻喷

尖塔的最终目标很明确:爬上最高层
这是好的毕竟有一个明确的目标意味着我们可以使用强化学习的方式进行训练(不管你是设置层数奖励还是得分奖励还是其他杂七杂八的)
尖塔内部可以分为两个不同状态:寻路网络和战斗网络
个人认为寻路网络简单使用强化学习即可,毕竟寻路的目标(奖励函数)是只要爬的尽可能高就可以了,一些可能跟寻路网络相连的输入:血量,金币,遗物,卡组,当前层路线,事件概率自动机,卡牌选择
但是战斗网络问题就比较大了,战斗的目标是多样的,即使是同样的敌怪和血量因为路线不同采取的策略也不同,有的对局可能要尽可能保血,有的对局可能要尽可能保药,有的对局甚至要在这些基础上卡一些遗物,这个属于多任务问题,强化学习很难胜任(有一种神经网络叫泛化网络可以实现在a任务基础上学习b任务同时不丢失a任务能力,或许可行),因此对战斗网络的设计是最难的
寻路网络的输出自然是路线选择,当下一步为战斗时还要给出对应的战斗目标(奖励函数,你可以理解为血量,遗物计数,药水等变量组合出的一个函数)供战斗网络进行决策
战斗网络的输入应该是血量,遗物,药水,怪物血量状态,怪物意图状态机,当前手牌/抽牌/弃牌状态,出牌数,玩家状态等等
战斗网络输出就是寻路网络输入