第1章¶

引言——国家安全政策分析兵棋及其改进方法¶

本章通过回答三个基本问题为本专著奠定背景：什么是国家安全政策分析兵棋（National Security Policy Analysis Game）？它们被用于何种用途？以及为何我认为它们需要改进？第一节界定了何谓国家安全政策分析兵棋——先介绍现有术语与定义，再解释为何我使用“国家安全政策分析兵棋”这一术语并阐明其涵义。接着，我通过定义兵棋的关键要素并讨论其与读者可能更熟悉的其他分析工具的比较，进一步充实这一概念。第二节探讨兵棋如何为国家安全分析作出贡献，从历史分析开始，再转向当代视角，包括概述不同类型兵棋的传统定义。本节最后讨论兵棋的局限性及潜在滥用问题，自然引出第三节对改进政策分析兵棋潜力的讨论。最后一节探讨当前界定“优秀”兵棋方法的局限性。我认为目前主导的将设计视为主要是艺术实践的方法在一定程度上促进了该领域的发展。但我主张，政策分析兵棋若能明确应当支撑其设计的科学原理，将更有助于该领域发展。本专著的大部分篇幅即致力于阐明这种科学方法可能包括哪些内容。

什么是国家安全政策分析兵棋？¶

美国国防部对兵棋推演（Wargaming）的官方定义是：“在合成环境中对冲突或竞争进行表征，其中人们做出决策并对这些决策的后果作出反应。”\({ }^{1}\)
兵棋（Game）是对特定国家安全问题的建模，由人类玩家扮演具有竞争目标的行动方，试图制定战略以改善自身处境。这些行动方能够在兵棋设定的程序框架内作出决策，以定义和实施其偏好的问题管理方式。这些决策随后通过一套规则影响其他行动方及更广泛的竞争环境。简而言之，兵棋就是人类玩家在基于一套显性或隐性规则的竞争环境中扮演行动方，做出决策并应对其行为潜在后果的过程。

不同兵棋对相关行动方、环境及规则的表征差异极大。一场兵棋可能是一名玩家在计算机终端上操控动画化的军事力量，在真实世界战区（theater）的逼真场景中进行演练；或是15名玩家隔着地图轮流掷骰子并移动印有军事符号的纸质棋子；或是数百名军官被分配到小团队中，间或接收关于外交危机升级的书面信息。所有这些都属于兵棋范畴。

这种多样性在形成对何为兵棋的清晰理解时带来了可预见的后果。一位兵棋专业人士曾打趣说，一组兵棋的集合名词应该叫做“一场争论”\({ }^{2}\)，而这种说法在该领域无法就通用定义达成一致这一点上体现得尤为明显。\({ }^{3}\) 虽然几乎没有兵棋人会反对上述核心描述，但各种不同的排列组合和解释层出不穷，从而引发激烈争论。例如，教义性定义置于行动方案（COA）分析讨论之中，导致有人认为只有那些探索拟议军事行动、并使用文件中列明程序的兵棋才可被称为兵棋推演（Wargame）。也有人指出国家安全工作中的应用范围远比此广泛。此外，还有争论认为“竞争”是否必须是人类对手，抑或疾病、自然灾害、官僚摩擦等力量也可提供必要的竞争元素。其他争论则集中在玩家决策需要多具体、这些决策需在多大程度上直接塑造所呈现的后果。虽然已有努力试图解决这些分歧，但共识迟迟未能形成。

为什么使用“国家安全政策分析兵棋”这一术语？¶

为了给这一争论带来一些清晰度，我倾向于使用“国家安全政策分析兵棋”这一术语，而不是更常见的“兵棋推演（Wargame）”或“严肃游戏（Serious Game）”，原因有几方面（尽管在本文中为了简洁，我有时将这一稍显冗长的短语缩写为“兵棋”或“兵棋推演”）。首先，使用“国家安全”而非“战争”意味着更广泛的议题，更能反映该工具在危机管理、非战争手段以及如采办、人事等对国家安全有重大影响但超越大型战争的官僚政策领域中的实际应用。这一用法也更包容外交和发展群体成员，他们可能在文化上对“战争”一词感到排斥，且认为该词并不能描述他们的工作。同时，我在此加入“国家安全”的描述，以明确我不包括博弈（Gaming）在“严肃游戏”或“政策游戏”范畴下应用于城市规划、环境行动、健康和教育等其他领域的情况。\({ }^{4}\) 虽然本文所述建议对国家安全领域外的实践者可能也有帮助，但我并未对这些应用进行深入研究，期待他人评估其适用性。

其次，“政策分析”的加入明确了这些兵棋是为向政策决策提供信息而设计的，旨在生成关于真实问题的更深入理解或信息。我在此将“分析”一词按一般意义使用，指代为更好理解政策领域要素与结构而进行的努力。换句话说，我将该词应用于一系列有时也被称为研究、推理或研究工作（studies）的活动——此类工作不必是定量的（尽管有时被这样推断），也不必仅限于将大问题拆解成若干部分的方法（尽管某些正式定义有此暗示）。对“分析型”兵棋的聚焦将两个大类排除在外：商业和教育兵棋。\({ }^{5}\) 正如Jon Compton形象地所说，“为不同目的设计的兵棋看起来可能非常相似，但就像工具箱的比喻一样，尽管水管工和电工使用的工具有共性，这些工具却被用在完全不同的事情上。”\({ }^{6}\)

从历史上看，商业兵棋和政策兵棋的界限曾经模糊，一些知名的业余设计师曾受邀为政府提供咨询，其他设计师则在两个领域持续从业。\({ }^{7}\) 许多备受尊敬的国家安全兵棋设计师认为，熟悉多种商业兵棋设计至关重要，因为那是设计方法的宝库。然而，虽然商业兵棋可作为提供更多巧妙机制和有用表征的手段，但它们仍根本上是为娱乐且在较小程度上为盈利而设计的。因此，商业兵棋设计师并不需要像分析型兵棋设计师那样，将其兵棋设计与生成关于政策问题的可信知识能力联系起来。\({ }^{8}\) 因此，本专著最关切的设计考量在商业兵棋设计讨论中并不具有同等权重。

同样，我在本专著中不考虑为教育和培训应用而设计的兵棋。这并不是说教育兵棋在国家安全领域不重要——兵棋推演已整合进许多国家安全教育课程\({ }^{9}\)，并可能占据防务博弈（Gaming）的大部分。教育和研究兵棋之间也存在重要交叉。一些作为研究工作一部分而设计的兵棋可能具有教育目标。例如，一款兵棋的目标可能是在设计团队内共享知识，我将此视为研究的一部分，因为团队型研究过程往往涉及理解当前问题认知的阶段，需要综合等分析任务。与此相对，用于项目后期将研究期间产生的新知识教授给他人的兵棋在我看来更接近教育兵棋，是更直接的知识传递。然而两者的界限常常因视角而异\({ }^{10}\)，因此其他研究者可能会就具体案例中研究与教育的分界展开辩论。我选择保持范围狭窄。\({ }^{11}\)

国家安全政策兵棋的要素¶

国家安全政策兵棋在形式上呈现巨大差异，但上述定义指出所有兵棋必须具备三大核心要素——一个具现政策问题的环境、能够塑造事件进程的行动方，以及治理行动方如何彼此及影响环境的规则。\({ }^{12}\)

兵棋设有一个合成环境以呈现国家安全挑战的情境。根据兵棋设计，该环境可由描述我们如何走到当前政策危机的情景构成，也可能在兵棋版图上呈现地图、图片、数据集等工具，帮助玩家理解其决策背景。第二，人类玩家被要求扮演关键行动方，这些行动方具有不同目标与能力，可做出影响政策挑战的决策。\({ }^{3}\) 有时这些细节由兵棋提供，其他情况下玩家需运用自身专业知识充实其所扮演行动方的意图与能力。第三是规则，它们规定行动方如何相互作用及影响环境，决定其可采取何种行动及这些行动在时间上的合理效果——换言之，映射出行动方与环境间潜在的因果关系。这些规则可表现为形式化规则清单，也可依托主题专家（subject matter experts）的专业知识进行动态塑造。总体来看，这些工具允许兵棋设计者构建一个人工世界，将人类决策置于其中，使他们得以体验自己选择的有意义后果。

在讨论设计权衡时，将这些要素分开是有益的，但在实践中政策体系不同部分的界限往往并不清晰。例如，可能难以区分一个行动方的“资源”与治理其行动的规则的界限——兵棋可能选择通过限制行动方可采取的行动次数来表现其有限资源。同样，未由人类玩家扮演的行动方可能仅被视为情景中提供的环境背景。划分这些要素的目的是促使设计者考虑设计的各个方面，而非规定最终如何将它们打包。

大量现有兵棋设计工作都致力于枚举设计者可选择的不同表征核心要素的方式。例如，兵棋传统上按其所吸引的玩家类型（如高层领导研讨会）、玩家可用行动范围（如固定式vs开放式）、兵棋媒介（如六角格-棋子（hex-and-counter）\({ }^{13}\) 或计算机化兵棋）、裁决方式（如刚性规则vs裁判兵棋）、计算机角色（人机混合vs自由形式兵棋）或这些因素的组合加以定义。海军战争学院前院长Tom Culora区分了裁决较为开放的大型多人兵棋、裁决较为严格的小型迭代兵棋、聚焦高层领导教育的“摄政”兵棋，以及大规模在线兵棋\({ }^{14}\)。其他评论者将裁决方式与兵棋媒介联系起来：裁判兵棋、刚性手工兵棋或计算机化兵棋\({ }^{15}\)。

虽然这些术语在设定参与者期望和描述兵棋运行后有帮助，但在兵棋设计早期阶段则不太有用，甚至可能产生问题。例如，若资助者过早定义参与者、兵棋形式或裁决方式，可能会过度约束设计者的选择，阻止设计者开发出最适合回答手头分析问题的兵棋。此外，对兵棋设计者的建议若主要由潜在设计要素组成，或可帮助有经验的设计者扩展其考虑的选项，却不太可能帮助新手设计者挑选最适合其特定分析挑战的设计要素。

将兵棋与其他分析工具进行比较定义¶

在国家安全分析中，兵棋常常与其他三类分析技术并置或加以区分：研讨会与座谈会、建模与仿真（Modeling and Simulation，简称 M&S），以及演习。这三类方法之间的具体区别在实际用法中常因措辞不严而变得模糊，但其一般特征仍具有较高共识。演习（Exercise）被定义为“模拟战时行动的军事机动”，\({ }^{16}\) 它与兵棋的主要区别在于使用了真实的军事装备与兵力运动。相比之下，研讨会则是“召集主题专家讨论某一问题的活动”，\({ }^{17}\) 但并不强调推动参与者做出具体决策或处理这些行为的预测结果。虽然研讨会可以汇聚专家进行综合分析，但缺乏结构“有时会导致总结出的讨论内容过于发散、缺乏结论性”。\({ }^{18}\) 最后，模型（Model）被定义为“对某一系统、实体、现象或过程的逻辑表征”，\({ }^{19}\) 而仿真（Simulation）则是“在时间维度上运行的模型”。\({ }^{20}\) 在国防领域中，这些通常指的是数学模型，往往依赖计算机运行，因此与兵棋的区别在于它们不涉及真实人类的决策过程。

虽然这些理论区分看起来很清晰，但在实际中界限却颇为模糊。\({ }^{21}\) 举例而言，有些演习包含实际参谋人员参与，与一个动态“红方”敌人交战。尤其是在指挥所或参谋演习中，其角色训练聚焦于规划与决策，可能很难明确划分兵棋与演习之间的界限。对于研讨会而言，问题在于：参与者的决策必须多么明确？决策与后果之间的联系必须多么直接？例如，如果一个活动设置了预设剧本，玩家需要就如何应对危机做出选择，但外部行动者的行为是预先计算且决定性地决定结果的，那么对该活动的归类可能极为模糊。同样，“人类参与环节模型”（human-in-the-loop model）或仿真，是M&S的一种类型，其中人类需要在关键节点与模型互动做出决策——这一过程几乎与计算机化兵棋无法区分。因此，最佳方式是将这些工具视作一个连续体，并意识到不同从业者会在术语使用上划出略有不同的界限。

在许多情况下，活动名称的选择更多源于官僚考量，而非分析清晰性的需要。某些机构中，“兵棋”一词可能带有轻佻含义，缺乏严肃性；在此类语境中工作的设计者可能选择“演习”或“研讨会”以展现更为严肃的语调。相反，那些更重视定量研究的社群可能偏好使用“仿真”而非“兵棋”。同时，资源的可用性或某个术语在机构中的声望也可能促使使用某一术语，以争取更多资源与关注。最后，对某一术语的反对有时是一种对活动质量的“术语把关”——例如，贬义术语BOGSAT（“一群人围坐一桌”，bunch of guys sitting around a table）\({ }^{22}\)，常被用来否定某活动应归为兵棋，有时因为缺乏定义要素，有时纯粹因为执行质量不佳。当兵棋结果是通过专家判断得出时，如果其专业性或决策透明度不足，便可能被讥为“BOGSAT”。事实上，设计者应始终清楚自己使用的是哪种工具，以及其分析局限性何在，但这些术语在实际使用中难免含混。

兵棋在国家安全社会科学研究中也占有一席之地，尤其在政治学的国际关系领域。\({ }^{23}\) 然而令人困惑的是，在该语境中兵棋常被称作“仿真”。此处，兵棋通常与以下方法进行对比与区分：1）基于档案与访谈的案例研究法，用于构建历史事件的深入理解；2）运用博弈论及其他数学工具建模行为的形式化模型；3）实验室与问卷实验方法。但与前述对比不同，在政治学研究中，博弈与仿真尚未被充分确立为研究工具——多数文献与实践更关注将其作为教学工具，而非研究手段，因而超出了本研究的范围。

国家安全政策兵棋的应用¶

在初步界定了何为兵棋（尽管这一定义难免模糊与不完美）之后，我们可以进一步探讨兵棋在国家安全政策研究与分析中的实际应用。在该领域中，兵棋被用于广泛的问题与目的，其效用与适切性也常引发争议。

从历史视角看，最早的一些高度抽象兵棋，如“六子棋”“国际象棋”与“围棋”，曾用于精英教育。\({ }^{24}\) 随着时间推移，军事领导者意识到预先规划未来作战并通过兵棋测试方案可获得更佳作战效果，这在普鲁士参谋体系的“兵棋推演（Kriegsspiel）”中尤为显著。19世纪末至20世纪初，兵棋在教育与探索方面的应用不断增长，用于探讨从敌方行为到战场新兴技术等各类问题。\({ }^{25}\) 二战后，兵棋也逐步被分析性国家安全研究所接纳，作为整合专家知识与激发新想法的一种方式。\({ }^{26}\) 尤其在美国，许多兵棋受益于日益发展的商业桌面游戏产业，该产业开发出用于表达历史与现实问题的新机制，并被国防部兵棋设计者广泛借鉴。\({ }^{27}\) 在20世纪后半叶，兵棋的非军事应用也有所扩展，被用于城市规划、医疗系统等议题的探索。\({ }^{28}\) 多位作者强调，时至今日，这些应用仍可在美国及海外找到身影。

除了上述体现博弈价值的历史路径，许多领导者与实践者也提供了强有力的叙述，这些叙述已成为该领域的重要参照，阐释兵棋如何服务国家安全研究。这些观点从不同角度强调博弈的价值——如其对政策的影响潜力、其揭示复杂决策过程的能力、以及其对参与者的心理与认知影响。

当前讨论中，包括关键高层领导者对兵棋支持国防决策能力的力证。例如，美国前国防部副部长Bob Work与参联会副主席Paul Selva就曾明确表达了兵棋对国防创新的支持作用：

“兵棋是为高层领导提供未来冲突一瞥的最有效手段之一，尽管并不完备。兵棋为我们提供了测试新理念与探索可能性的机会。它们帮助我们设想未来作战的替代运作方式与新型能力，并评估其潜在影响。”\({ }^{29}\)

换言之，Work与Selva认为兵棋之所以有价值，是因为它们为新思想在国防部内部的生成与传播提供了平台。在战略不确定时期，这类创新至关重要。例如，当国防部从长期聚焦伊拉克与阿富汗战争转向应对新兴大国竞争者时，兵棋在支撑决策者方面发挥了关键作用。因此，高层所能从兵棋中获得的支持定义了其价值，并为其争取更多资源与关注提供了理由。\({ }^{30}\)

另一种视角强调兵棋对其他方法难以触及问题的独特适应性。诺贝尔奖得主Thomas Schelling指出，兵棋具备研究多个决策中心互动行为的独特属性，因此可用于研究交流、意图、认知误差、信号传递等关键议题。\({ }^{31}\) 他还指出兵棋的若干附带好处，例如促成信息交流，让玩家或分析师接触到本不会遇见的人或知识。这些益处往往在玩家职业生涯后期显现，当过去兵棋中的想法与人脉对当前问题产生启发时格外重要。\({ }^{32}\) 他还指出兵棋可提炼出关于人类行为常见趋势的“有用原则”，\({ }^{33}\) 类似于博弈论模型（如囚徒困境）带来的洞见。

最后一种观点聚焦于兵棋对参与者自身的影响。Peter Perla与Ed McGrady强调玩家在兵棋中的关键作用。他们指出：

“兵棋的力量与成功（也包括其潜在风险）源于其让个体参与者通过游戏体验实现自我转化的能力……兵棋中存在一种难以言喻但影响深远的内在联系，与叙事相关，影响了游戏改变参与者的能力……”\({ }^{34}\)

换句话说，兵棋的价值在于其“精炼我们自我叙事的能力”，\({ }^{35}\) 有时通过生成新叙事，有时通过将某种叙事在机构内更广泛传播。这一观点认为，兵棋的价值不在于它生成了哪些事实，而在于它塑造了我们理解事实的方式。

尽管上述描述深刻地影响了兵棋人对其工作的价值认知，这些论述主要起到激励作用，却未能系统性地勾勒出兵棋在国家安全政策分析中应有的应用方式。它们未明确指出兵棋适用于哪些问题、不适用于哪些问题，因此也难以制定兵棋适用性的“路线规则”。下一节将聚焦于已有尝试，界定兵棋在支持研究方面的适用边界。

国家安全政策兵棋的应用类型分类法（Typologies）¶

在上述关于博弈价值的影响性视角之外，另一些工作试图通过梳理兵棋类型来界定其贡献。这些分类法相关文献通常篇幅短小（常为几句话，很少超过几页），作为兵棋设计指南则显得略显不足。一方面，这种简略的篇幅无法让作者详述分类在兵棋设计与分析中的具体含义。虽然也有其他框架提供更具体定义，但设计者通常自行创建分类体系而不参考既有成果，导致众多相互重叠、关系模糊的分类并存。因此，使用某一特定分类术语在实际设计或理论推进中所涉及的问题，往往并不清晰。

其中一类分类聚焦于所研究问题的本质及其分析可行性。例如，可将兵棋划分为处理“可分析问题”与“不可分析问题”两类——前者指可被拆解且存在最优解的问题，后者则指其规则、动作与结果不可预判的问题，且所生成的学习类型亦不同。早期RAND研究如此描述这一划分：

“前者的学习在于用复杂方式处理简单输入；后者则是用简单方式处理复杂输入。在‘可分析兵棋’世界中，目标是发现重复组合基本动作所蕴含的隐性战略意义；在‘不可分析兵棋’世界中，则是领会当前情境中所蕴含的战略‘张力’。在可分析兵棋中，玩家创造战略机会；在不可分析兵棋中，玩家运用现有机会。”\({ }^{36}\)

尽管这种区分在概念上颇具吸引力，但实际上，政策问题多数都很复杂。团队可能通过将问题范围缩小来增强分析可行性，但这是团队对问题范围的界定行为，而非问题本身的固有特性。\({ }^{37}\) 换句话说，该区分反映的是对问题“范围”的选择，而非对所生成“知识类型”的划分。

另一种方法尝试从兵棋所产出信息如何服务于国防部不同关注事项的角度来定义兵棋的目的，例如概念开发、能力建设、科技前瞻、高层领导参与与作战决策，以及训练与教育等。\({ }^{38}\) 这类分类方式常常受到资助者青睐，并有助于将关注相似议题的兵棋聚合在一起。然而，这些类别过于宽泛，涵盖的兵棋之间问题差异很大。因此，即使在国防部每一关注事项之内，兵棋设计仍呈现高度多样性，导致这些分类对设计者而言并不构成有用指导。此外，落入这些类别之下的具体研究问题是否适合用兵棋解决也并不确定。比如，用兵棋对拟议概念的潜在弱点进行压力测试是合理的；但若用兵棋“验证”一个概念则并不适当。再如，探索新技术如何改变敌方认知非常适合采用兵棋，而用兵棋衡量新型装甲所致伤亡数则不恰当。简言之，这些分类可能对兵棋的资助者和使用者产生误导，暗示兵棋能够支撑远超其能力范围的研究计划。

这些分类大多数围绕兵棋可能支持的分析任务展开。\({ }^{39}\) 例如，长期担任RAND兵棋设计师的Milton Weiner指出，兵棋可用于：1）组织多个研究者持有的知识，2）研究和评估哪些因素重要以及它们之间的关系，3）理论构建。\({ }^{40}\) 针对研究型兵棋，Weiner进一步细分为三类子类型：第一类将兵棋视为观察事件过程、从而识别关键因素与关系的机会；第二类以实验为模型，通过比较手段评估环境中某一变项对兵棋结果的影响；第三类则演练某一具体计划、政策或武器，以了解其在特定情境下的优劣势。\({ }^{41}\) 同一时期的另一个框架则将预测、创新与战略创造力，以及揭示尚不清楚的动态机制作为兵棋的主要目的。\({ }^{42}\)

更近的文献也延续了这些主题。例如，Ed Parson 区分了三类兵棋：用于实验、激发创意与洞见、整合知识，但他指出并非所有兵棋都能产生有用知识。\({ }^{43}\) Peter Perla 则将研究型兵棋划分为三类：用于制定或测试战略与计划、识别问题、或在参与者之间建立共识。\({ }^{44}\) 其他两个类似框架包括Graham Longley Brown 提出的“理解、洞见生成、评估”三分法\({ }^{45}\)，以及Stephan Downes-Martin 提出的“体验型、比较型、分析型”兵棋划分。\({ }^{46}\) 虽然这些文献之间并无明显冲突，但当前研究尚未充分厘清它们的分类差异与界限。更根本的问题是，现有框架未明确指出设计者在实现这些目标时应如何做出设计决策。本专著正是致力于回答这一问题。

政策兵棋的局限与误用¶

与兵棋适用性争论相对的，是对其不适用领域的激烈讨论。一方面，这并不令人惊讶——所有方法都更适合回答某些问题，而兵棋的局限往往也适用于其他方法。在任何研究领域中，讨论方法局限性都十分重要。另一方面，对兵棋表现出的深层担忧以及该领域内部对兵棋能否发挥效用的分歧，却显得格外广泛且令人不安。很多时候，这些争论可归结为几个关键问题。首先是研究人员试图让兵棋解决其并不适合回答的问题，即无视了其局限性。其次是兵棋的设计与执行方式破坏了其回答研究问题的能力——换言之，即使兵棋本可成功，也因设计不当、执行失误或分析不力而未能发挥应有效用。无论起因如何，普遍共识是：大量兵棋未能达成目标，未能有效服务于国防部的政策研究与分析工作。

核心批评之一集中于兵棋的“人工性”——由于其决策者与环境皆为合成构造，容易呈现出具有说服力但与现实毫无关联的叙事。\({ }^{47}\) 其中部分局限也适用于建模与仿真，但涉及人类玩家的问题尤需关注，因为正是人类决策才使兵棋与其他技术区分开来。在虚构环境中“扮演”做决策的人，其行为必然不同于现实中面对真实利害的决策者。问题在于，这种“人工性”将如何影响兵棋的认知价值。早在1950年代，RAND的兵棋人员便对这一点表示担忧：

“显然，‘纯粹游戏’（即参与者福祉并不受结果影响，仅从游戏过程中获得乐趣）与‘真正战斗’（即参与者福祉或生存依赖于兵棋结果）之间存在本质差异。”\({ }^{48}\)

对“红队”角色扮演质量的担忧由来已久。\({ }^{49}\) 尽管兵棋辩护者主张，这些人工性不比其他研究方法中存在的问题更严重，\({ }^{50}\) 但若玩家“仅仅在玩”，其结果还能有多“真实”，这一问题始终困扰着希望将兵棋作为分析工具使用的人。

类似争议还存在于兵棋是否适合用于预测问题。虽然几乎所有兵棋文献都会强调“不能将兵棋结果视为预测”，但兵棋人也常引用海军上将Nimitz的话，即两战之间进行的兵棋推演为美国海军准备了除神风特攻队外的所有太平洋战役场景。\({ }^{51}\) 质疑者指出两点：第一，兵棋提供的只是“未来历史”的一种可能构想，\({ }^{52}\) 但“可能性”并不等于能用于应对一个充满不确定性的现实未来。\({ }^{53}\) 第二，兵棋的沉浸式体验具有“诱惑力”，\({ }^{54}\) 玩家经历了某一可能未来后，可能倾向于高估其发生概率。\({ }^{55}\)

这种张力揭示了兵棋在分析中的根本挑战：为了对决策者有帮助，兵棋必须揭示可转移到未来的因果关系，也就是说，它们必须在某种程度上生成具有现实意义的理解。然而兵棋只能呈现极少数几个“具体未来”，通常只有一个。设计者常会选择一个“最危险”未来作为演练对象——也就是说，在所有可能的未来分布中，往往挑选的是极端情形而非中值。理论上，这一矛盾可通过区分“趋势指示”与“具体预言”加以解决：兵棋可揭示可迁移至其他语境的趋势与模式，但其具体情境和事件不应被视为对未来的精确预测。\({ }^{56}\) 然而在实践中，由于兵棋的沉浸性，这种区分很难维持，因而持续成为争议焦点。

另一个常见张力体现在兵棋如何处理政策问题的复杂性。一种方法是将问题分解为可分析的子部分，这往往使研究聚焦于较狭窄、技术性较强的课题。而若希望探讨更宏观问题，就必须要么将这些细节重新整合，要么将复杂过程简化至近乎荒谬的程度。\({ }^{57}\) 兵棋设计中倾向于更高细节度尤其成问题，因为兵棋往往用于研究早期阶段，在对现象边界与组成部分尚未完全理解时开展。结果就是：

“我们必须谨慎……确保我们加入的细节与复杂性，与我们对现实世界的了解和游戏目的相一致。否则我们可能出现这种情况：在我们甚至不确定一个数是正是负的情况下，还试图精确到小数点后三位。”\({ }^{58}\)

相反，兵棋若过于简化，则可能得出错误结论，或结论过于宽泛而对研究无益。后一种情况的一个变种是：兵棋往往仅复制现有常识，付出高昂代价却只得到平庸洞见。\({ }^{59}\) 因此，兵棋设计者需在复杂性与简洁性之间取得平衡——过于简化无法获得洞见，过于复杂则会产生虚假精度，最终丧失对全局的把握。且对不同研究主题而言，两者之间的距离往往极为狭窄。

上述每一点局限性单独看都构成问题，若合在一起则可能导致对兵棋的严重滥用。\({ }^{60}\) 在构建高度吸引人的人工环境过程中，若目标是为既定结论提供“证据”，则通过刻意简化达到操控结果的可能性大大提升。当兵棋被用于支撑重大国防决策时，兵棋过程的组织者就可能因其风险与收益高度相关而受到操纵结果的诱惑。\({ }^{61}\) 而兵棋设计本身即是关于环境、规则与行动方设定的一系列细微选择过程，这使得设计、执行与分析阶段皆有被操控的风险。因而，兵棋也因此而获得了“容易操控”的负面声誉。\({ }^{62}\) 虽然设计者常指出，这类问题并非兵棋独有，其他方法也存在类似风险，但担忧的广泛性已经足以影响兵棋的可信度，必须予以正视。

正是出于操控风险的考量，许多兵棋人对将兵棋用于假设检验持强烈反对态度，认为此类用途绝不适合。\({ }^{63}\) 然而，类似于预测问题，这一通行反对意见与兵棋在行动方案分析（COA Analysis）等常见用途之间形成了张力。行动方案分析本身即旨在评估某一方案是否可行——这实际上就是一种假设检验。有些兵棋专家建议采用“行动方案证伪”（course of action falsification）——即，不指望兵棋对假设提供强支持，但可以用来识别失败路径，作为一种折中方式。\({ }^{65}\) 但这一建议尚未广泛被采纳，该张力依然存在。

除上述“兵棋不应使用”的争论外，还有一个更常见的问题，即兵棋使用中的可避免性错误。实际上，“合理”与“问题”使用之间的界限常常非常微妙，设计、执行与分析的细节决定了兵棋的质量。设计者与资助者长期指出，兵棋未能发挥其应有价值，主要源于设计、执行与分析中的错误。\({ }^{66}\) 通常的担忧包括：兵棋结构不足、过于格式化\({ }^{67}\)，从而无法对接分析目标。\({ }^{68}\) 也有持续担心，即兵棋团队之外的人员可能以某种方式干预兵棋，削弱其分析能力。\({ }^{69}\) 这些对兵棋质量的质疑也可能动摇高层领导者的支持——如果他们感受不到兵棋对其决策的支持，就可能转而使用其他工具。\({ }^{70}\)

当前兵棋社区的讨论很大程度上聚焦于培养更优秀的兵棋设计者。资深从业者早就指出，优质设计师数量严重不足，难以满足当前需求水平。\({ }^{71}\) 社区普遍建议需培养更多兵棋人，并提升资深兵棋人在为高层领导提供建议方面的地位。\({ }^{72}\) 虽然这些努力对推动兵棋职业化具有重要意义，但如果继续在当前模型下推进，可能仍不足以提升兵棋整体质量。下一节将探讨为何当前做法仍显不足，并提出一种新的兵棋理解路径，以推动该领域向更积极方向转变。

构建更优的国家安全政策兵棋推演（game）¶

缺乏评估工具导致难以明确区分那些设计精良、执行严谨、分析深入且能产生有价值信息的兵棋推演，与那些具有误导性的兵棋推演。若无法持续地区分高质量的分析兵棋与劣质兵棋，则当后者迎合了资助方想听的结果时，它们可能反而会影响决策者；而当前者产出不受欢迎的发现时，则可能被忽视。然而，解决缺乏衡量标准的问题比乍看起来要难得多。

当前关于兵棋评估存在两种相互竞争的观点。第一种（也是更常见的）将兵棋视为一种艺术形式。对成功兵棋设计的衡量标准依赖于兵棋最终产品带来的体验。这种方法导致兵棋资助方和设计者均感到沮丧——因为许多兵棋质量平庸，甚至糟糕。另一种观点则转向更具分析性和科学性的方式，来评估设计是否在研究过程中被稳妥地指导。虽然承认此种方法存在潜在问题，但笔者认为科学方法能为理解一场兵棋是否优秀提供急需的工具，从而有望大幅提升国家安全政策兵棋的质量。

什么样的兵棋才算好？¶

首先，必须解决的核心问题是如何定义评估兵棋质量的标准。然而，兵棋的本质与目的立即带来了困难。兵棋往往用于探讨未来——而所谓“正确”的答案在兵棋执行与评估之时本就尚未可知，因为现实世界中缺乏可用于对照的经验数据。这一点在核战争领域体现得尤为明显，或许最著名的说法来自一位兰德研究员的调侃：“将军，我打过的核战争跟您一样多。”\({}^{73}\) 这一观点同样适用于战争与冲突的许多其他领域，尤其是在研究那些使用尚未出现在实验室中的武器的未来战争时更是如此。正如本章前文所述，兵棋并不在于给出具体预测，而是提供重要趋势的指示性信息，或提出此前未曾考虑的问题。事实上，最具影响力的兵棋，往往正是为了让现实中永远不会发生游戏中描绘的危机而塑造决策的。因此，准确预测未来并不是评估兵棋质量的恰当标准。

另一个看似直观的衡量标准是，兵棋是否促使政策得到改进。不幸的是，除了极少数案例外，这一结果往往难以确定。某种程度上，这与许多分析类型存在共性，因为：

“政策制定者完全可以在没有分析支撑的情况下制定政策，而这项政策也可能是好的。但我们无法真正知道它是否好，除非将其置于最终的检验中。”\({}^{74}\)

其中隐含了两个制定衡量标准的挑战。首先，在大多数情况下难以评估兵棋（或任何分析）对政策制定所产生的具体影响。有些决策者会明确指出某项分析如何影响了其思维，但更多时候，关联并不清晰。一项研究被引用，是因为其确实影响了决策者的观点？还是仅仅因为其结论支持了决策者原有立场？若某参与者在多年后依据当年兵棋经验做出快速判断，我们又如何追踪这种影响？跟踪此类影响可能成本高昂，甚至政治上较为敏感，不具实际可行性。其次，评估政策的“好坏”本身就是一项著名难题。虽然此类评估工作本身至关重要，但它超出了兵棋从业者旨在提升工作价值的核心问题范围，因此本文不予深入探讨。

考虑到上述限制，将评估重点放在兵棋的设计、执行与分析环节所做决策的质量上是有意义的。然而，兵棋推演（wargaming）群体尚未就如何评估一场好兵棋的设计达成共识。现有文献强调设计必须服务于目标的重要性，但对如何实现这一点却鲜有建议。被广泛引用的兵棋设计手册指出，设计元素的选择必须紧扣游戏目标，因为“兵棋的目标应成为其整体结构的核心驱动因素。”\({}^{75}\) 但如何建立这种连接，这些文本基本语焉不详。即便是最受尊敬的设计著作也写道：“没有哪种公式可将兵棋目标翻译为具体机制……最终，设计师的天赋决定了目标到机制转化的方式与成效。”\({}^{76}\) 经验丰富的设计师认为，这一现象是因为连接方式无限多样，设计师无法遵循固定流程。

该领域的领先人物建议，解决之道之一是在质量控制中引入具有良好设计记录的专家兵棋设计师。\({}^{77}\) 然而，也有观点认为该方案不可行，因为专家稀缺，且难以确定谁是真正的专家。\({}^{78}\) 如果专家确有能力评估兵棋质量，但数量不足以应对当前庞大的设计需求，一种解决办法是开发工具，以捕捉专家评估者所依赖的知识，从而辅助不那么资深的设计师。

虽然在实践中，高级兵棋设计师确实能够并经常性地建立目的与设计之间的连接，但他们目前尚无法清晰表述这背后的通用理论。例如，当笔者试图通过调研专家玩家以归纳其评估兵棋时使用的线索时发现，尽管在执行阶段判断兵棋质量有许多强有力的经验法则，但即便是资深玩家也很难说清楚优秀设计或分析产品的标志。\({}^{79}\) 受访者提到了目标与设计间需要“匹配”，但具体描述通常只是“可理解”、“合乎逻辑”、“合理”等模糊词汇。我们再次面对一个强烈的共识：兵棋目标与设计之间的联系非常关键，但并未被清晰定义。

两种观点解释这一鸿沟¶

考虑到兵棋支持国家安全政策的历史已久，这一鸿沟为何持续存在显得令人困惑。其实，目的与设计缺乏明确联系的根源在于兵棋从业群体内部的分歧——部分实践者认为兵棋本质是一种艺术，另一些人则坚持研究与分析型兵棋的设计必须基于科学。这两种视角提供了不同的评估思路，并由此产生不同的实践路径。艺术视角下，评估依据是“该领域公认媒介下的熟练程度”；\({}^{80}\) 而科学视角则认为应当关注研究过程是否扎实。虽然历史上将兵棋视为艺术的观点占主导地位，但支持科学基础的倡导者也从未缺席。笔者认为，后者若正确构建，将有助于提升整个领域的实践水平。

目前，大多数兵棋从业者将其工作视为一种艺术。这种观点倾向于将兵棋视为一种交流手段，\({}^{81}\) 特别是用于讲述关于“可能发生了什么、意外发生了什么、什么策略奏效并导致胜利、什么失败并导致失败”的故事。\({}^{82}\) 但将兵棋当作手工艺处理的偏好也带来了对兵棋质量的严重担忧。艺术取向者\({}^{83}\)及其批评者\({}^{84}\) 都对面向国防受众所制作的劣质兵棋数量表示担忧，同时指出社区在衡量质量方面的无能。两个问题尤为关键：新兵棋设计师的培养难度，以及群体内部无法形成判断实践能力高低的有效机制。

艺术取向下的兵棋强调设计师个人才华与其重组设计要素以达到惊艳效果的能力。寻求指导的新设计师常常感到沮丧，早期兰德公司的兵棋设计师们就指出：

“目前并没有一套系统性学科称得上‘兵棋理论’，即能明确指出兵棋的目的、设计规则、或如何构建兵棋以实现其目标的方法。换句话说，兵棋尚未达到科学方法的水平，依然更像是一门工艺。”\({}^{85}\)

这使得刚入行的设计师往往面临难以驾驭的“行会体系”。商业桌游的接触经历被错误地当作潜力指标，然而用于娱乐的游戏与面向研究和分析的兵棋在目的上截然不同。结果是，那些本可成为优秀兵棋设计师的研究人员可能得不到应有的培训。\({}^{86}\) 在兵棋使用频次较低的年代，新兵棋师供给有限尚可接受，但在当今高质量兵棋需求远超设计师供给的背景下，培训新人已成当务之急。\({}^{87}\)

此外，决定兵棋（games）质量在很大程度上依赖于设计者、赞助者和客户的判断。根据艺术性研究的惯例，持艺术视角的博弈（gaming）拥护者认为防止劣质兵棋的最佳方法，是让优秀的设计者指出不良实践。\({ }^{88}\) 然而，这种解决方案在实践中面临诸多障碍，因为兵棋社区缺乏正式资质认证或其他机制，难以界定谁是可信的评判者。过去的研究指出的问题包括：具有足够经验来进行此类评估的兵棋从业者数量有限 \({ }^{89}\)，以及社区难以有效地向外界传达谁是胜任的实践者。\({ }^{90}\) 针对该社区经验丰富成员的调查还揭示出一些潜在的不良评估方式，例如：仅凭兵棋的设计者来判断其质量（即便最优秀的设计者也会偶尔产出失败的作品）、偏好玩家参与感强的兵棋（即使其事实基础不足以支撑严谨分析）、或赞同那些强化既定立场的兵棋。\({ }^{91}\) 这并非新问题——早在 1970 年代，兵棋从业者就已表达类似担忧：“自由式兵棋……真正优秀的从业者极少，其产出难以度量，因此极难判断该艺术形式近年来是否已有进步。”\({ }^{92}\) 简言之，对兵棋采取艺术性路径的坚持，使得难以设定明确的优劣标准，也难以防止冒名顶替者制作误导决策者的劣质兵棋。尽管许多研究者不断致力于改进这一领域，这一问题已持续数十年仍未得到根本解决。

本专著提出另一种路径：将用于研究与分析的兵棋设计建立在科学探究逻辑之上。该方法并非旨在剥离兵棋设计中的艺术性——真正出色的兵棋本质上是创意天才的产物，设计者能在有限条件下构建出极具感染力的成果。同时，科学基础也无法保证兵棋的成功——外部因素，尤其是赞助者与玩家的态度，仍可能破坏最精心设计的兵棋。我主张，应以清晰表述、科学严谨的逻辑作为兵棋设计的根基。本文即试图阐明此类方法，并说明为何采纳这些实践有潜力提升政策分析用兵棋的整体水平。

需要明确指出的是，兵棋设计者对于“科学”方法可能存在合理担忧——国防部偏好的科学方式往往过于刻板，缺乏处理兵棋关注的人类决策等“模糊”现象的能力。第一个问题引发担忧，即兵棋设计者可能被迫不断复刻少数并不成熟的设计模板；\({ }^{93}\) 第二个问题则令人担心所谓“科学”路径会试图将兵棋转变为一种本质上并不适合的形式——标准化流程，输出可预测、量化的分析成果。\({ }^{94}\) 与此同时，观察到其他分析工具被骗子滥用的兵棋设计者指出，科学的旗号并不足以防止欺骗行为或劣质作品流入国防体系。

尽管上述担忧具有合理性，我认为“科学”尚未在这一讨论中得到公平对待。社会科学领域发展出了一整套系统性的研究方法，既注重体系性，又重视用创意研究设计来应对复杂问题，充分利用有限或不确定数据。\({ }^{95}\) 兵棋与社会科学中的其他分析方法有许多共通之处——如聚焦群体中的人类决策等。因此，兵棋完全可能采用科学的设计逻辑，其中的兵棋应当以设计逻辑是否合理作为评判依据。\({ }^{96}\) 这类标准将有助于向利益相关方提供明确的设计评估依据，要求设计逻辑 1）清晰可理解，2）对各类相关方保持透明。虽然这类工具无法阻止不道德研究者或敷衍的赞助者接受劣质作品，但却为那些有意提升工作质量者提供了一整套工具。若此论正确，采用合适类型的科学方法有助于通过更清晰的设计标准来提升兵棋质量。

需要再次强调的是，科学框架的目标是为兵棋设计提供必要的指导原则。然而，仅凭这些原则，并不足以产出最顶尖的兵棋设计。本文所讨论内容的意图是设定一个最低门槛，以使兵棋设计能够在研究领域具备可信度。如果某个兵棋设计者无法给出合理解释，说明其兵棋为何能产生与其目的相匹配的信息，那么该兵棋的成果就可以在分析中被忽略。设计者仍然需要通过巧妙的设计选择来创造最优秀的兵棋，让玩家能充分投入其中。确实，杰出的兵棋设计中蕴含着大量艺术性——但本文主张，这种艺术性必须建立在合理逻辑的基础上。本文即聚焦于描述这种基础性的逻辑元素。

迈向科学路径：兵棋设计逻辑的界定¶

本专著致力于推动兵棋科学化的探索——一种在不否定兵棋聚焦人类互动与决策本质的前提下，为设计者、赞助者与兵棋使用者提供清晰准则的方法。在接下来的章节中，我将逐步提出一套基于社会科学的兵棋研究逻辑方法。第2章介绍我的总体研究方法，包括我能获取的数据范围及其限制。第3章和第4章则提供理论基础：第3章将当代关于科学哲学的讨论应用于兵棋，并展示兵棋如何与三种不同的科学研究路径保持一致；第4章则提出四类兵棋可生成的研究信息原型。第5至第8章则探讨这一理论方法在实践中的含义，描述第4章四种信息原型对应的兵棋设计权衡逻辑。第9章回顾RAND兵棋发展史，说明其产出信息类型如何随时间演变。第10章则向兵棋设计者、赞助者与使用者提供总结性建议。