五场测试做完了，桌上摊着五本笔记，每本记了三四十条观察；电脑里存着五段录屏视频，总时长将近六个小时；便利贴贴了半面墙，还有一些备注随手写在纸边上，字迹已经有点看不清了。

这些材料加在一起，大概有两百条原始记录。随手翻看几篇笔记，发现很难形成判断，比如第二个用户在注册页停了很久，这算不算严重问题？第四个用户跳过了邮箱验证，这是个别行为还是普遍现象？有三个用户都提到"不确定提交成功了没有"，这三条观察之间有没有关联？每条记录单独看都说得通，但放在一起看，确找不出方向。

一. 测试结束后立刻做的一件事

整理数据从测试结束的那一刻就应该开始了，不是等到所有场次都结束之后才开始。

每场测试结束后，在参与者离开的那五到十分钟里，参与测试的人员需要立刻写一份快速回顾：这场测试里最值得关注的两三个发现，用户在哪里卡住、卡了多久，用户说了哪句最值得记录的原话。不需要完整，不需要结构，只需要把最鲜活的印象沉淀下来。

之所以要立刻做，是因为记忆衰减的速度比预期快得多。测试结束两小时后，很多细节的鲜活感已经消退；第二天再回忆，很多具体的行为已经模糊，只剩下一个模糊的"他在那里卡了很久"，而"很久"是多久、他当时说了什么、他最后怎么处理的——这些细节已经通通丢失了。

写快速回顾的时候不需要分析，不需要得出结论，只需要把刚才最鲜活的印象用文字固定住。这样到了后续整理阶段，打开回顾就能回到当时的现场感，而不是对着一条"用户在这里卡了很久"的笔记，想不起来到底卡了多久、卡的时候说了什么。

二. 观察笔记的标准格式

原始笔记往往格式不一——有的是完整的句子，有的是关键词，有的混入了主持人的解读，有的没有记录是哪个用户或哪个任务。这种格式不统一的笔记在后续做比较时会很麻烦：不知道这条观察来自哪个用户，不知道发生在哪个流程节点，无法判断它和其他场次的笔记是否在描述同一类问题。

整理的第一步，是把所有原始笔记转换成统一的格式。每条观察需要包含四个要素：

谁：哪位参与者。用编号（P1、P2、P3）而不是真名，便于后续分析时在多条笔记里看到"P1 和 P3 都遇到了这个问题"这样的信息。
做了什么：具体的行为描述。动作、操作对象、发生了什么，越具体越好。
在哪个步骤：任务几，流程的第几步。这个定位让多场测试里的同类观察可以被放在一起比较——"五个用户都在任务二的第三步遇到了障碍"这个规律，只有在每条笔记都有步骤定位的情况下才能看出来。
反应：用户的情绪反应或语言输出，如果当时有记录的话。用户的原话比主持人的概括更有价值，哪怕只是半句。

举个例子。同一个观察，标准化前后的区别：