AI 科研 · 04

Claude Code辅助质性分析:主题编码与扎根编码

第 1 部分 导入:质性研究走入 AI 辅助时代

ℹ️ 质性研究的定义

质性研究是以研究者本人作为研究工具,在自然情境下,采用多种资料收集方法(访谈、观察、实物分析、焦点团体等),对研究现象进行深入的整体性探究,从原始资料中形成结论和理论,通过与研究对象互动,对其行为和意义建构获得解释性理解的一种活动(陈向明,2000)。

1.1 一个真实的场景

1.2 今天的核心观点

AI 不是替你思考,而是让你把时间花在思考上。

Claude Code 在质性研究里的合理定位,只有三句话:

  • 一个可对话的研究助手
  • 一个可复用的分析工作流容器
  • 一个帮研究者记录、整理、追问、挑战、修订分析过程的工具

把它当”分析外包”用,几乎一定出问题;把它当”研究助理”用,节省下来的时间应该被花在更深的理论思考上。

第 2 部分 方法论前提:主题分析和扎根编码

ℹ️ 本部分导语

我们挑了质性研究中最常见的两种分析方法:主题分析(TA)和扎根编码分析(GT)。先做一个清晰的对比,让你知道自己手头的数据应该走哪一条路;再分别附上两篇范文,方便你回去对照阅读。

2.1 数据与理论的关系光谱

质性研究里,“既有理论”和”原始数据”之间的关系,取决于你采用什么研究范式。最常见的有三种模式:

数据与理论关系光谱

  1. 自下而上(归纳 / 数据驱动):理论后置,让主题从数据里”涌现”。适合探索那些少有人涉足的全新领域。
  2. 自上而下(演绎 / 理论驱动):理论前置,作为”模板”测试它在新情境下是否依然适用。适合验证、修正、扩展成熟理论。
  3. 循环往复(溯因法):理论先作为”敏感化概念”启发分析方向,数据中的异常发现反过来挑战并修正理论预设。

四种理论贡献类型(对应这三种关系的产出):

  • 印证(Confirmation):证明理论在新情境下仍然适用
  • 扩展 / 补充(Extension):发现理论未提及的新维度或调节因素(最常见的创新路径)
  • 挑战 / 修正(Challenge):数据与理论预测相反,指出理论边界(高价值原创)
  • 综合(Synthesis):引入多个理论交叉解释单一理论无法涵盖的复杂现象

2.2 TA 与 GT 的深度对比

2.2.1 总体对比

一句话概括两者的差别:主题分析是画一幅”静态全景地图”,扎根理论是造一台”动态动力钟表”。

TA vs GT

比较维度主题分析 (TA)扎根理论 (GT)
核心研究目标描述与呈现:提炼意义模式,回答”发生了什么”解释与预测:揭示内在机制,回答”如何运作”
理论介入时机灵活可变(透镜):可前置、悬置或溯因严格后置(土壤):前期极力避免文献污染
理论对话层级现象级(不对等):用现有理论解释新现象机制级(对等博弈):用新机制挑战现有理论
核心分析单元主题(Theme):并列的多中心核心类属(Core Category):严密的绝对单核
核心操作程序线性递进:数据收集完整后集中分析螺旋式迭代:收集与分析交替(理论抽样)
关键分析动作模式识别:寻找受访者话语中的共性持续比较:跨文本对比,寻找因果和脉络
最终研究产出概念框架 / 主题地图实质理论(典范模型)
适用研究问题What / Which / Experiences / Dimensions——“[群体]的真实体验是什么?""面临哪些维度的挑战?“示例:“00 后职场新人在进行向上管理时,面临着哪些维度的情绪困境?“How / Process / Mechanism / Evolution——“[群体]是如何应对[问题]的过程?""内在生成机制是什么?“示例:“00 后员工从’积极建言’走向’彻底躺平’的心理与行为演变机制是什么?“
选型信号数据已一次性收集完毕;只需归纳现象特征;解决具体情境问题;有进度压力可随时返场理论抽样;需解释动态因果过程;目标是建构普适性实质理论;时间充裕
AI 辅助定位高级图书管理员(分类、总结、找联系)苛刻的答辩评委(找矛盾、逼问因果)

AI 可以帮你处理现象材料,但不能替你决定理论对话,也不能替你做方法论选型

ℹ️ 课程范围说明

本课程的扎根理论部分以 程序化扎根理论(Strauss & Corbin, 1990; 1998) 为参照框架。扎根理论目前有三个主要传统——Glaser 经典版、Strauss & Corbin 程序化版、Charmaz 建构主义版——三者在理论介入时机、编码程序和知识论立场上存在实质差异。课程时间有限,无法逐一展开,延伸阅读见附录 B。

2.2.2 材料分析过程的对比

2.3 几篇范文拆解

  • 主题分析范文 1:民族志方法中的主题分析
  • 主题分析范文 2:主题分析方法中的主题分析
  • 扎根理论范文:程序化扎根的本土化应用

第 3 部分 主题编码及其 Skill 实操

3.1 Braun & Clarke 六步法

主题分析的标准操作框架是 Braun & Clarke 提出的六步法。六步里有四步可以让 AI 介入,但最关键的”命名”环节必须研究者亲自动手

TA 六步法 · 哪步交给 AI

  1. 熟悉数据
  2. 生成初始编码 ← AI 可介入
  3. 搜寻主题 ← AI 可介入
  4. 审查主题 ← AI 可介入
  5. 定义与命名主题 ← 研究者主导
  6. 撰写报告

3.1.1 数据准备与熟悉

数据准备清单:访谈转录文本(按受访者分文件)、田野笔记、情境备忘录、研究者反身性日志。

熟悉数据这一步不能省也不能让 AI 替——你要先用自己的眼睛把材料从头到尾过一遍,在脑子里形成对话场域的”整体感”。后面 AI 的所有输出,都要靠这个整体感来判断真伪。

3.1.2 生成初始编码

推荐流程

  1. 研究者独立编码 1–2 份材料(建立自己的编码风格基准)
  2. 把这两份材料与你的编码样本一并交给 Claude Code
  3. 让它”模仿你的编码风格”对其余材料输出候选编码
  4. 研究者逐条审查、修正、标注异议

ℹ️ 重要提示

  • AI 输出的是候选编码,不是正式编码
  • 一次给 AI 太多材料效果会差,最好分段处理
  • 你和 AI 的分歧,往往恰恰是洞见所在——不要急着统一

3.1.3 搜寻主题

Prompt 模板:主题聚类
1. 识别编码之间的聚类关系,提出 5–8 个候选主题
2. 对每个候选主题,列出它包含哪些编码
3. 标出你认为归属不明确、可能跨主题的编码

3.1.4 审查主题

可以直接复用的追问:

  • “主题 X 和主题 Y 的边界在哪里?请分析差异。”
  • “这个主题内部一致性如何?哪些编码可能不属于这里?”
  • “如果从 [理论视角] 来看,这些主题能否重新组织?“

3.1.5 命名主题(研究者主导)

ℹ️ 主题命名是分析行为,不是文字润色。它体现的是:你如何理解这个主题的核心,以及你如何把它放进更大的理论对话。Claude Code 可以提供备选名称,但最终命名必须由研究者作出。

3.2 Skills 实操:使用 thematic-analysis skill

先看下这个 skill 的样子——通常放在 .claude 隐藏文件夹下的 skills/ 子目录里。

第 1 步:配置项目的 CLAUDE.md

写清楚:研究主题、受访者编号规则、编码风格偏好、是否要保留 in vivo 原文、不希望出现哪些标签词。

第 2 步:初始编码阶段(thematic-analysis skill)

功能

  • 接收原始访谈文本,逐份完成 TA 初始编码
  • 编码贴近数据语言,优先使用受访者原话(in vivo)
  • 每份访谈编码完成后自动保存为独立文件(coding_[被访者编号].md),不占用对话上下文
  • 所有访谈编码完成后,自动汇总编码池,输出跨访谈重复编码与独有编码分布

演示重点

  • 颗粒度控制:逐句编码,只有纯粹的单词应答(“嗯""对”)才可跳过;其它所有内容必须编码
  • 编码权限边界:某句话是否重要,是研究者的判断权,不是 AI 的判断权

第 3 步:主题搜寻与命名(thematic-analysis skill)

功能

  • 对汇总后的编码池整体扫描,识别编码地形
  • 自动聚类生成 5–8 个候选主题
  • 从内部一致性、外部区分度、研究问题相关性三个维度审查主题
  • 为每个主题给 2–3 个备选命名,并明确标注边界模糊的编码

演示重点

  • 主题聚类如何处理归属不明确的编码(不强行归并)
  • 主题审查如何发现重叠与拆分必要性

thematic-analysis skill 会在所有命名建议之后输出固定声明:“命名判断移交研究者”。主题命名体现研究者的理论立场,这个设计本身就是方法论立场。

第 4 步:主题审查(thematic-analysis skill)(analytic-memo skill)

主题审查阶段如果某个主题触发了理论联想——“这里似乎有什么”或”这个主题和某个理论概念很像”——立即启动 analytic-memo,让 AI 代写备忘录,研究者审过即可。

写备忘录最重要的不是成品,而是写作过程本身推动分析前进。

第 5 步:主题命名调整与确认(thematic-analysis skill)

经过研究者反思和讨论,对主题表述做最终调整和确认,并撰写主题摘要——为后面正式写作做准备。

第 4 部分 扎根编码及其 Skill 实操

4.1 三阶段结构

扎根编码标准结构是三阶段:开放编码 → 主轴编码 → 选择性编码。AI 在三个阶段的介入度递减——越到核心理论建构,研究者越要亲自上场。

GT 三阶段 + AI 介入度

开放编码:打碎数据,进行概念化。追问:这里正在发生什么?AI 介入程度:

主轴编码:建立概念之间的关系。追问:这些概念如何相关?AI 介入程度:

选择性编码:整合核心类属,形成理论叙事。追问:谁是核心?如何整合?AI 介入程度:低,研究者主导

本课程以 Strauss & Corbin 的程序化取向 为操作框架,三阶段结构与典范模型均来自该传统。Charmaz 的建构主义版本在知识论上更具反思性,但操作程序较少明确化,不适合初学者在有限时间内入门。

negative-case-finder skill 对应选择性编码阶段的负面案例分析,而不是贯穿全程的通用操作。

4.2 开放编码

ℹ️ 定义:对资料进行分解、比较、概念化与类属化的过程。

一级编码三步走

  1. 识别事件:逐项识别出资料中的事项、事情、事务,进行命名(抽象层次较低)
  2. 提炼类属:对具体事件分类合并,形成概念(抽象层次较高)
  3. 分析类属:定义内容、分析特征、进行分类

4.3 主轴编码

将现有类属按照”典范模型”进行逻辑关联,讲清楚类属之间的关系(条件 / 情境 / 行动策略 / 后果)。

4.4 选择性编码

确立核心类属,撰写故事线,发展核心研究问题,进行理论对话。

4.2 Skills 实操

第 1 步:配置项目的 CLAUDE.md 文档

跟 TA 类似,需要写清楚研究主题、编码风格、受访者编号、敏感词处理偏好。

第 2 步:开放编码,使用 grounded-coding skill

功能

  • 对访谈材料做开放编码,输出结构化编码表
  • 支持概念归并与属性维度整理
  • 从第二份起:跨文本持续比较,输出类属演化摘要

演示重点

  • 如何让 AI 跟随研究者的编码风格
  • 为什么编码仍然必须逐条人工审查

编码表可以由 AI 协助生成,但编码判断不能由 AI 最终裁定。

第 3 步:主轴编码(继续用 grounded-coding skill)

让 skill 把开放编码阶段产生的类属,按典范模型套进”条件 / 情境 / 行动策略 / 后果”框架。AI 可以提议关系,但每一条关系都要经过研究者验证。

第 4 步:选择性编码(继续用 grounded-coding skill)

到这一阶段 AI 的角色更接近”陪练” / “答辩评委”——你提出核心类属,让它挑刺、追问、找反例。

补充动作:分析性备忘录,用 memo-coach skill

这个 skill 的设计很有意思——它不替研究者写备忘录,而是通过连续追问,逼研究者自己把想法写出来。它会追问你:

  • 你到底注意到了什么?
  • 这个概念的边界在哪里?
  • 什么情况下它不成立?
  • 一个怀疑者会如何质疑它?
  • 如果必须用一句话说,你现在的暂定命题是什么?

写备忘录最重要的不是成品,而是写作过程本身推动分析前进。这是更符合质性研究主体性要求的 AI 用法。

补充动作:寻找反例,使用 negative-case-finder skill

这个 skill 不是简单”找不同意见”,而是专门做 negative case analysis,把不一致分成四类:

类型含义
真反例直接削弱当前命题
边界案例命题只在某些条件下成立
维度差异看似不一致,实则是程度或阶段不同
数据不足目前还无法判断,需要补材料

这种分类方法逼你认真对待”看似冲突”的数据点——而不是把它们当噪音忽略掉。

第 5 部分 方法论边界与伦理

5.1 固有限制

局限说明应对方式
无法理解情境不知道访谈氛围、沉默的含义保留田野笔记与情境备忘录
容易平滑异质性倾向于寻找模式与一致性主动做反例分析
没有反身性不能替代研究者的自我反思反身性部分必须由研究者独立完成
语境依赖对隐语、方言、身份政治理解有限提供背景说明,谨慎解释
数据隐私访谈文本可能含有敏感信息先做匿名化处理,遵守伦理规范

5.2 不建议使用 Claude Code 的情况

  • 访谈数量极少,深描比整理更重要
  • 研究者尚未形成对材料的整体感
  • 研究设计高度依赖反身性和田野嵌入
  • 数据高度敏感,匿名化处理困难

ℹ️ 如果研究者还没有真正读懂材料,就不要急着把材料交给 AI——这一步偷不得。

5.3 论文中如何声明 AI 使用

可以参考下面这段表述(依目标期刊政策调整):

本研究在编码阶段借助 AI 辅助工具(Claude Code)生成候选编码、识别初步聚类关系,并用于反例与边界案例的初步检索。研究者对全部 AI 输出进行逐条审查、修正与重新概念化。AI 工具仅用于提高分析过程的组织效率,所有理论判断与命题修订均由研究者完成。

关键词:候选编码 · 逐条审查 · 重新概念化 · 理论判断由研究者完成

总结:五个核心原则

  1. Claude Code 是助手,研究者才是分析主体。
  2. Prompt 有用,但 Skill 更能体现 Claude Code 的研究工作流价值。
  3. 主题分析与扎根编码都可以借助 AI 辅助,但理论判断不能外包。
  4. AI 最好的用途之一,是帮助研究者挑战过早确定性。
  5. 真正节省出来的时间,应该用在理论建构上,而不是偷懒上。