第2章¶

研究方法¶

在前一章文献回顾的基础上，本研究提出了一种兵棋类型框架，旨在明确政策分析类兵棋中“目的”与“设计”之间的潜在逻辑联系。首要任务是确定哪种类型的框架（或分类法）对兵棋设计者最具实用价值。经过权衡，我确定采用“原型（archetype）”划分更具成效。随后，我调研了可用数据源以填充这些类型。由于现有兵棋记录有限，最终决定优先使用专家验证方式来精化该框架，而非传统的分类研究。因此，我开展了一系列个人与小组形式的专家访谈，以收集他们对该框架捕捉专业实践能力的反馈。

研究背景¶

如同多数研究一样，数据的可用性在本项目研究设计中具有决定性作用。该研究需获取兵棋实际设计过程中的数据。为了解兵棋设计者如何开展工作，我可访问两类数据：一是对具体兵棋设计的书面描述，二是与实际兵棋设计者的直接访谈。然而，这两类数据都存在由兵棋所处政策环境及其所支持流程带来的系统性局限。为帮助未深度参与该社区的学者了解这些限制，本节将回顾这些数据的局限性，并为后续的研究设计提供背景支撑。

现有兵棋记录的局限性¶

兵棋报告往往令人着迷，但关于具体兵棋的书面记录却存在诸多空白。公开报告仅覆盖了运行过的极小一部分兵棋，而且这些内容的数量与性质难以界定。出于安全等级、敏感性以及业内不鼓励开放出版的文化，许多兵棋文件未能公开。即便兵棋报告已归档，往往也难以定位与调研。一旦找到，这些报告中常常缺乏有关研究逻辑及其如何影响设计的描述。换言之，开发或验证以研究设计为中心的传统分类方法所需的数据，在文献中往往缺失，现有数据也无法视为具代表性。以下内容将总结书面资料中的空白，并分析可能的成因。

首先，部分兵棋的结果从未被正式报告。例如，旨在支持短期决策或为参与者提供体验学习的兵棋，往往仅通过简报、备忘录或邮件等非正式方式记录，而非形成较长篇幅的正式文档。编写正式报告需要耗费时间与资源，若未明确提出书面成果的需求，许多部门也无意承担这些开支。这些实践可能形成一定程度的游戏记录，但对于研究人员来说却构成巨大障碍，因为关键细节往往仅存于设计者或关键参与者的记忆中。最终，这类兵棋常常被排除在样本之外。

即使兵棋有书面记录，这些材料往往无法公开。诸多敏感因素（不仅限于保密等级）阻碍了我们对可用报告的全面理解，也使我们难以判定样本偏倚。例如，若兵棋用于支撑未来规划，则对手可能会试图获取兵棋主题、所用敌方战术与能力信息，或我方的新兴能力。涉及国内或盟友内部博弈的兵棋亦可能因暴露弱点或损害关系而被视为敏感，从而限制信息公开。此外，某些兵棋若公开可能妨碍今后类似兵棋的开展。比如，一些暴露错误或判断失误的兵棋报告若被公开，可能令参与者与赞助者难堪，从而增加参与风险、破坏兵棋作为低风险实验平台的特性。尽管一些敏感报告可能随着时间推移或特定请求而开放，这些过程往往不可预测，因此多数兵棋报告仍不公开。

即使某兵棋记录可公开传播，也往往未正式出版，极难查找。这一现象在政府与关联行业中较为常见，相关文档可能会内部流转而未正式发表。背后原因多样，包括：目标读者有限，内部流通更有效；缺乏公开平台与审稿流程支持；以及研究人员缺乏激励推动公开发表等。这种“灰色文献”有时可通过人脉或偶然机缘获取，但难以系统搜集。虽然近年已有部分改进尝试，但系统性仍严重不足。例如，国防部近期建立了一个兵棋中央记录库，包含约700个兵棋的信息，\({ }^{97}\)

但该数据库仅限于国防部内网系统访问，尚无类似系统收录跨机构的非保密报告。\({ }^{98}\) 因此，这一领域的大量成果仍难以系统、平等获取。

当书面报告可获得时，一个显著的问题是其中很少包含对设计过程的讨论。对当前兵棋实践的研究表明，书面报告中所包含的信息因目的、资助方的需求与偏好以及业务实践的不同而差异显著。\({ }^{99}\) 有几种不同的现象可以解释这一差距。其中一个担忧是，许多兵棋由依赖回头客以维持财务可行性的承包商或顾问主持。对于这些设计者而言，公开兵棋的详细描述可能意味着未来业务的流失——客户可能会问：“如果我能根据报告自己开展兵棋，那我还为何要雇佣兵棋设计者？”另一个问题是，兵棋信息的使用者往往对兵棋所产出的实质性洞见更感兴趣，而非产生这些信息的方法细节。这种更关注实质内容而非技术过程的倾向，在其他分析学科中也存在。然而，在兵棋结果中缺乏一种通用、技术性、简洁的语言来描述设计选择背后的逻辑，可能加剧了报告撰写中忽视此类信息的趋势，因为兵棋方法社区缺乏对此类信息的要求，而设计者即使想要报告这些内容，也缺乏一致易懂的表述方式。当技术细节被提供时，通常仅聚焦于兵棋的某些特定组成部分，如裁决系统，而非整体研究逻辑及其对设计的影响。简而言之，正是我们开发或检验基于研究设计的传统分类方案所需的数据类型，往往在书面记录中缺失。

由于兵棋设计在档案记录中普遍未被良好记录的原因非常多样，因此很难明确可获得资料的偏差特征。例如，涉及当前紧迫议题的兵棋可能需要使用敏感信息，限制了报告的传播，但资助单位也可能出于影响不同利益相关方的需求而更重视发布此类报告。比如，一场探讨新兴技术在军事问题中应用的兵棋，可能因涉及技术预测而对外保密，也可能为了吸引学术界与工业界关注而公开，从而获取军方之外的前沿研究资源。报告是否公开，往往依赖于指令的解读或办公室文化，而这些又高度依赖具体人员或上下文。所有这些考量都难以从外部观察清晰判别。因此，尽管我们可以确定任何可获取的样本都不可能代表所有支持政策的兵棋，但却很难界定该样本的偏差方式，在分析中必须警惕书面记录中存在大量难以界定的缺口。\({ }^{100}\)

专家社群的局限性¶

正如我们难以明确判断哪些兵棋用于支持国家安全政策，我们也难以界定兵棋从业者社群的构成。由于缺乏统一的学术训练路径、兵棋从业所需的认证机制，或类似律师执业证、医师资格证这样的职业资质，也就不存在一个集中记录职业兵棋从业者的名录。多个不同组织在从事兵棋工作，但彼此之间未必知晓。该问题由于承包商在该领域中的主导地位而更加严重，因为这增加了涉足兵棋的组织数量。整体上缺乏对外公开的出版行为，加剧了这种认知分裂。正如一位知名会议召集人所说，兵棋从业者若想了解更广泛的社群，必须“穿越卓越孤岛的群岛（navigate an archipelago of excellence）”，\({ }^{101}\) 其中众多中心彼此部分孤立地开展工作。

一些倡议旨在构建更强大的社群，但其影响仍不尽如人意。最为成熟的两个平台是军事运筹学会（MORS）年度会议的兵棋分会场，以及Connections兵棋会议。这两个会议为兵棋社群提供了广泛的交流中心。会议为兵棋从业者提供了展示研究和拓展网络的定期机会。然而，由于会议的时间与成本限制，它们仅吸引了该领域的一部分从业者。两者还衍生出了一些其他项目，包括MORS的“实践社群”系列讲座与国际Connections会议，旨在提升网络的可及性。此外，五角大楼内部的“兵棋资源库”等追踪兵棋项目的努力，也有潜力成为识别从业者的另一个枢纽。\({ }^{102}\) 但兵棋提交至该资源库并非强制，而访问权限亦受限，实用性有限。所有这些努力都偏向于服务美国国防部（DoD）内部的兵棋设计者，对其他部门与国家的参与存在不均衡。其他偏差也可能存在——例如，承包商必须对间接成本进行核算，因此若无法向上级或资助人证明收益，他们往往不愿参与耗时的活动。与出版一样，这些偏差的范围与影响难以预测——由于我们无法了解社群的完整形态，也就难以判断缺失了谁。

研究方法¶

与其试图从有限的实证数据中分类归纳出结论，我采用了另一种方法，即依赖专家验证与示例引导进行迭代式框架优化。该方法分为四个阶段：1）以科学术语理解政策兵棋设计，2）框架设计，3）专家验证，4）示例引导。以下章节将阐述我在每个阶段的研究过程，特别说明其中的局限性与研究设计受到的约束，以及这些限制可能对结果带来的影响。

阶段一：以科学术语理解政策兵棋设计¶

在深入框架实质内容之前，我首先认为应当探讨兵棋如何适配现有对“科学”的理解。如第一章所述，当前关于兵棋角色的讨论普遍回避正式的科学哲学、存在论与认识论的考量，而为数不多的相关文本既未被广泛传播，也缺乏持续关注。有时，这是因为作者主张兵棋本质上是一种艺术。\({ }^{103}\) 另一些则认为，兵棋作为实践性极强的领域，对纯粹哲学探讨缺乏耐性。此外，兵棋从业者的学术背景多样，缺乏共同语言与标准化术语用于进行此类争论。因此，当前有关兵棋的著作鲜少涉及科学哲学中的核心概念——即我们如何通过观察世界获得知识。\({ }^{104}\)

鉴于该领域文献的空缺，任何试图以科学为基础开发更系统化兵棋方法的努力，均应首先对“科学”本身有透彻理解。我起初聚焦于来自社会科学（特别是国际关系学科）对“科学”的探讨，因为这些学科同样关注人类、其决策及其所构建的组织体系，与国家安全政策兵棋的主题高度一致。相关文献指出，科学并非单一方法，而包含多个不同传统。随后，我参考了兵棋设计者们关于实践的现有文献，尝试寻找证据表明兵棋设计者是否遵循了这些科学哲学中的某种承诺。我使用这些著作为示例，展示并非只有一种“科学化兵棋”方式是可行的，而是存在多种可能路径。同时，我也考虑了社会科学研究讨论中对如何从兵棋中获得知识的启示。

阶段二：初始框架设计¶

在研究的下一个阶段，我在参考现有文献和自身兵棋设计经验的基础上，构建了一套兵棋类型化（typology）框架。该任务包含三个核心要素：确定框架的范围（即希望对兵棋的哪些方面进行分类）、决定框架的呈现形式（即用何种方式组织分类体系最为有效），以及填充框架初始内容。尽管这些方面在后续阶段中经历了一定演化，但初始框架设定对最终成型产生了深远影响。

范围界定¶

本研究的目标是探索是否存在不同的逻辑可以将兵棋目的、设计选择与最终产出信息连接起来；若这些逻辑可识别，则希望以实用形式展现，使设计者、资助方与信息使用者均可理解。最初我大量参考了社会科学中关于研究逻辑（logic of inquiry）的文献。“逻辑”一词在此语境下尤为重要，因为它强调研究者必须提出一个有说服力的论证，用以连接研究过程与结果的可信度。该术语通常用于描述研究者如何论证其所开展研究为何能让读者获得对现实世界的理解，尤其是对关键因果关系的认知。\({ }^{105}\) 尽管尚无统一定论，但大多数作者认同研究设计中存在多种可选逻辑，不同逻辑适用于不同类型的证据和研究目标。然而，早期访谈表明，“研究逻辑”或“设计逻辑”的术语并未被兵棋设计者普遍、稳定理解。本专著尝试解释这些逻辑及其潜在价值，期望该框架对实际工作有所帮助。

为寻找更易理解的语言表述我希望该分类系统所承载的功能，我经历了数次迭代，最终选择了以“兵棋希望产出何种信息”为分类标准的路径。一个初始思路是将兵棋的“目的与目标”作为分类依据，这与现有兵棋文献较为一致。\({ }^{106}\) 但在实践中，兵棋的目的与目标通常由资助方设定，语言表达模糊，且常常目标不止一个。\({ }^{107}\) 设计者常常需要对兵棋文档中“官方”目标进行大量解读，以推断真实需求，进而推动设计工作。

因此，我选择将焦点从兵棋本身的“目的与目标”，转向该项目（兵棋作为其中一部分）所需最终产出的信息类型。\({ }^{108}\) 虽然从某种角度看这只是语义层面的差异，因为兵棋的目标也应当陈述其期望的产出，但这种从“终点倒推”的逻辑受到了访谈对象的普遍认可。例如，这种做法与当前的教学理念相符——数据采集计划应基于希望从兵棋中得到的信息制定，兵棋的设计亦应围绕这些要求展开。\({ }^{109}\) 因此，我决定以兵棋所期望产出的信息类型为基础，构建分类原型，而非以目的或目标为中心。

在研究过程中，框架范围的另一个调整是将教育或传播类兵棋从分类体系中剔除。我发现，任何同时具有教育与研究目标的兵棋，其特征与仅具有研究目标的兵棋一致。而“教育目标”的存在，反而为设计者提供了“退路”——即使兵棋未能产出所需信息，也可宣称其“教育目标已实现”。换言之，添加教育目标并未对设计提出更多要求。因此，我将其移除，以使框架更聚焦于生成所需信息的兵棋设计。

形式选择¶

在界定框架目的的同时，也需确定采用哪种分类体系。政策分析中常用的分类方式主要有两种：分类法（taxonomy）与类型学（typology）。但我最终选择了一种稍显冷门的方式——原型（archetypes），因其具有一些更为合适的特点。

一般而言，分类系统有两种构建方式：一种是自上而下，即定义一组理论区分，再以此分类总体；另一种是自下而上。不同领域术语略有差异，但大致可认为类型学基于理论，分类法则从经验数据出发。在政策分析语境下，两种系统都被广泛应用，但经验性更强的分类法在某些语境下更具可辩护性。\({ }^{110}\)

但要构建一个合理的基于经验的系统，必须具备多样、具代表性的样本集。正如前文所述，现有兵棋记录过于残缺，无法支撑此类方法，因此分类法在本研究中并不适用。

同时，传统类型学也在兵棋语境中存在问题。理想状态下，类型学应具备“互斥且穷尽”的特点，即任何一个对象只能归入一个类别且不会遗漏。但兵棋实践与文献均指出，兵棋往往有多个目标，因此一个更灵活的框架更为合适，也更具实用价值。

原型（archetypes）作为类型学的一种变体，更具潜力。该方法广泛应用于哲学、心理学与文学批评等领域，其核心为“理想形式”。在政策分析领域，原型更多与系统思维相关，所谓“系统原型（system archetypes）”\({ }^{111}\) 指的是在多种情境下重复出现的行为模式。此外，原型在政策分析中常被用于向非专业受众传达复杂研究成果，因此此方法或可提升我的研究成果对兵棋资助者等非专业人群的可理解性。由于原型为理想形式，因此实际案例往往无法完全符合任一原型；但原型作为一种识别模式的工具，可用于识别并组合多种类型特征。

考虑到我对兵棋设计者所做的初步调查，识别模式的理念显得尤其契合。当被问及优秀兵棋的特征时，专家们普遍认为设计应与兵棋目标“匹配”，但鲜少能清晰阐述这种“匹配”意味着什么。\({ }^{112}\) 专家们用来描述设计过程的语言极为有限，这与“专家决策模型”文献中的观点形成有趣的呼应，尤其是“识别优先决策模型（Recognition-Primed Decision Making, RPD）”理论。\({ }^{113}\) 该模型强调决策中的“模式识别”作用——即专家并不总是在多个选项间进行比较，而是凭经验快速判断当前决策与以往典型案例的相似之处与异常，从而形成决策计划。换言之，RPD模型认为，经验丰富的兵棋设计者面对新兵棋任务时，会根据经验快速识别其与既有案例的相似与差异，并以此做出设计决策。

原型正是服务于这种识别模式的工具，它为设计者提供了其经验之外的参考案例，覆盖多个极端类型。设计者可以据此与当前问题进行对比，识别相似与不同之处，从而优化设计。原型也为设计者提供了通用语言，即便他们未参与相同兵棋项目，仍可借助原型进行沟通。

填充初始框架¶

我依据几类关键信息来源生成了初始框架。首先，我梳理了现有文献（详见第1章）中已有的框架与概念。其次，我结合这些概念与我自身的兵棋（game）设计实践进行对照分析，认真思考我所设计的兵棋是否契合已有分类，以及我在设计过程中所做的关键决策。这一过程产出了五种兵棋类型的分类，并列出了一组初始的区分特征。

在第二阶段的构思中，我从概念层面进一步梳理了框架，明确了各兵棋类型及其相互区分的方式。我的目标是增强这些原型（archetypes）的清晰度，以及我向验证对象阐述它们的能力。我采用的主要方法是设想一种同时具有多个原型特征的兵棋设计挑战，并思考如何将这些兵棋目标整合进一个统一设计中，尤其关注设计过程中可能产生张力的区域。随后，我将这些张力点提炼为不同兵棋类型的区分特征。通过对所有两两组合（共10种组合）的反复思考，我最终剔除了一类兵棋类型，并进一步精炼了其余框架要素的刻画方式。

在这一阶段结束时，我已生成了一个包含各类型简要描述的初始框架，并用一张表格在10个不同维度上对各类型进行了特征刻画。这个简短文档作为后续第3与第4阶段讨论的基础材料。

第三阶段：验证¶

在项目的第三阶段，我从资深兵棋设计师与资助方那里获取了对该框架的直接反馈，以确保其“有效性”与“实用性”。“有效性”指的是该框架所捕捉的模式是否与专家从自身实践中识别出的模式一致；“实用性”指框架的表达是否清晰，并可用于设计者、常参与者与资助方所面临的典型兵棋问题。虽然不同设计师对不同工具的感受与适配程度不尽相同，但我的目标是让大多数设计者能在框架中看到对其自身实践与成果的有力刻画。

我主要采用半结构化访谈（semi-structured interviews）的方法\({ }^{114}\)，向兵棋设计师与资助方介绍框架，然后引导他们反馈整体框架方法与具体原型分类是否符合其对兵棋的理解，并询问他们是否认为该框架对自身或其他利益相关方具有帮助。反馈通常包括三种类型：1）总体认同该框架与其设计理解一致的观点；2）对一个或多个类别的具体质疑，以及这些类别与其经验的关系；3）关于如何区分两个或更多类别的困惑\({ }^{115}\)。我据此对框架进行了修订，并在下一轮访谈前重新启动验证流程。

我与一系列兵棋设计者与资助方进行了访谈。在整个研究期间，我在一对一或小组设置中共采访了30余人。受访者通过我的职业网络、其他受访对象的推荐，以及在大型兵棋会议上征集兴趣者的方式招募而来。表2.1总结了访谈与选定研讨会受访者的机构与身份构成。

除个别访谈外，我还在2018年7月的“Connection Wargaming Conference”上组织了一场更广泛的“验证研讨会”。该会议的分会场采用自愿报名方式，近40名代表参与了该环节。虽然未收集详细的受访者人口信息，但参与者涵盖了美国陆军、空军与海军、情报界、跨军种与军种社区的承包商，以及英国国防部。该研讨会包含了框架的展示，以及部分简化版本的反馈交流活动。

参与者还进行了一个“类型归属”练习，即给出某个兵棋目的的描述，让参与者评估每种原型类别的适用性。该方法借鉴自RAND/UCLA适用性方法（appropriateness method），通过多轮打分聚合专家共识\({ }^{116}\)。此类方法可提供更结构化的反馈，有助于呈现专家群体的整体观点。本次混合方法尝试在自由讨论与结构化数据收集之间取得平衡。

表2.1：访谈与研讨会受访者的机构归属

机构	部门	设计者	资助方
联合部门	国防部副部长办公室		X*
	国防政策副部长办公室	X* \(\dagger\)	X* \(\dagger\)
	国防部成本评估与项目评估办公室（CAPE）	X	X* \(\dagger\)
	国防部净评估办公室（ONA）	X* \(\dagger\)
	联合参谋部研究分析与兵棋处	X
	兰德公司（RAND）	X\(^\dagger\)
陆军	陆军指挥与参谋学院	X
	陆军分析中心	X
海军	海军战争学院兵棋系	X\(^\dagger\)
	海军战争学院战略与作战研究部	X
	海军战争学院哈尔西小组	X
	海军研究生院	X
	CNA分析中心	X* \(\dagger\)
空军	空军研究实验室	X
	兰德公司（RAND）	X\(^\dagger\)
海军陆战队	Group W	X\(^\dagger\)
跨机构	中央情报局（CIA）	X*	X
	国防情报局（DIA）	X
	国土安全部（DHS）	X\(^\dagger\)
国际机构	英国国防部	X\(^\dagger\)

* 表示受访者为该部门的前成员（离任未满 5 年）；

\(\dagger\) 表示访谈包含了承包商（contractor）或联邦资助的研究与开发中心（federally funded research and development center, FFRDC）研究人员。

第四阶段：案例归档¶

研究的第四阶段旨在收集一套代表性兵棋样本，以用于进一步完善框架，并辅助说明框架的应用。在第一步中，我通过归档文献与兵棋设计师访谈收集兵棋报告，并根据框架原型对其进行分类。当设计者可联系并愿意参与时，我会邀请其共同参与分类过程。

起初，归类这些样本兵棋的目标包括：1）验证该框架是否能涵盖常见兵棋设计的类型；2）识别哪些成功兵棋落在框架之外，以便提出新的类别；3）为每种兵棋类型的描述与推荐特征提供实证支持。然而，随着我发现记录的碎片化与框架日渐稳固，收集兵棋的目标逐渐转向辅助性说明。通过确保样本涵盖社区内多个不同类型的兵棋，我希望为读者提供与自身实践契合的案例，并为其应用框架提供切入点。

专家访谈中的兵棋样本¶

样本兵棋的主要来源是与多位兵棋设计师与资助方的半结构化访谈。这些访谈常常与前述验证访谈结合开展。为获取具体设计信息，我采用改编后的“关键决策方法”（Critical Decision Methods）【117】。该方法聚焦于非常规、非日常事件，以此引导受访者提供更细致的设计权衡、方案替代与潜在问题描述。

访谈通常分为两个部分：首先获取受访者所设计或参与的兵棋类型的整体描述，以便理解其背景；随后大部分时间集中讨论一个受访者最自豪的兵棋项目。虽然也使用其他提示语（如“你最想重写的兵棋”、“最典型的兵棋”），但这个提示最能快速唤起特定项目记忆，也是第5-8章所述大多数案例的来源。这些访谈常常录音（必要时转录），以建立起丰富的兵棋设计决策材料库【118】。

档案材料证据¶

书面记录的使用具有若干优势：可研究远早于现役实践者记忆的历史兵棋案例，提升证据的多样性；同时也更透明，其他研究者可独立验证分析结果。然而，正如前文所述，可用的兵棋记录仅占全貌的一小部分，且无法排除系统性偏差。因此，依赖档案的路径不可行。

尽管如此，特定兵棋的书面记录仍对专家访谈起到了补充作用。在部分案例中，受访者推荐了一些有助于设计理解的历史项目报告。因此，我使用档案材料补充若干案例的访谈数据。在极少数情况下，若我能获取到高质量、非机密的兵棋报告，且其能弥补访谈材料中的空缺（特别是历史类兵棋），我也会单独引用这些案例。但我并不认为这些样本具有代表性，它们只是基于可得文献的便利样本，其中大多数来自兰德公司档案。

个人实践¶

除他人所设计的兵棋外，我也引用了我本人设计、且已公开发布的兵棋实例。部分原因是便于操作，我能最清楚了解这些设计中涉及的权衡与选择，因此可提供详尽描述以辅助说明。更重要的是，这些兵棋正是我在本书中所呈现框架的试验场。常常是在理论探索、与设计师对话，以及我自身设计决策三者的交汇处，才最终使我厘清了思路。

框架细化¶

总体而言，档案与访谈材料为框架细化提供了两类分析基础。其一是验证框架的描述能力：多数兵棋可归类为一种或多种原型；与设计师讨论分类过程亦有助于澄清原型定义。其二是识别不同类型下的设计权衡点：实际案例常揭示出新问题或替代策略，这些内容被纳入框架中。

但也必须指出，这些数据与分析存在局限。首先，这些案例并不具代表性——能被完整记述或深刻记忆的兵棋，往往是因其设计复杂、新颖或独特；其次，兵棋从业者样本与文献样本的代表性也存在不确定性，可能遗漏一些应纳入框架的要素。第三阶段尝试通过专家反馈来弥补部分风险，但我认为只要框架具有普遍实用性，即便不能满足“互斥穷尽”的分类学标准（而该标准对原型体系并不必要），也足以成立。