五场测试做完了,桌上摊着五本笔记,每本记了三四十条观察;电脑里存着五段录屏视频,总时长将近六个小时;便利贴贴了半面墙,还有一些备注随手写在纸边上,字迹已经有点看不清了。
这些材料加在一起,大概有两百条原始记录。随手翻看几篇笔记,发现很难形成判断,比如第二个用户在注册页停了很久,这算不算严重问题?第四个用户跳过了邮箱验证,这是个别行为还是普遍现象?有三个用户都提到"不确定提交成功了没有",这三条观察之间有没有关联?每条记录单独看都说得通,但放在一起看,确找不出方向。
一. 测试结束后立刻做的一件事
整理数据从测试结束的那一刻就应该开始了,不是等到所有场次都结束之后才开始。
每场测试结束后,在参与者离开的那五到十分钟里,参与测试的人员需要立刻写一份快速回顾:这场测试里最值得关注的两三个发现,用户在哪里卡住、卡了多久,用户说了哪句最值得记录的原话。不需要完整,不需要结构,只需要把最鲜活的印象沉淀下来。
之所以要立刻做,是因为记忆衰减的速度比预期快得多。测试结束两小时后,很多细节的鲜活感已经消退;第二天再回忆,很多具体的行为已经模糊,只剩下一个模糊的"他在那里卡了很久",而"很久"是多久、他当时说了什么、他最后怎么处理的——这些细节已经通通丢失了。
写快速回顾的时候不需要分析,不需要得出结论,只需要把刚才最鲜活的印象用文字固定住。这样到了后续整理阶段,打开回顾就能回到当时的现场感,而不是对着一条"用户在这里卡了很久"的笔记,想不起来到底卡了多久、卡的时候说了什么。
二. 观察笔记的标准格式
原始笔记往往格式不一——有的是完整的句子,有的是关键词,有的混入了主持人的解读,有的没有记录是哪个用户或哪个任务。这种格式不统一的笔记在后续做比较时会很麻烦:不知道这条观察来自哪个用户,不知道发生在哪个流程节点,无法判断它和其他场次的笔记是否在描述同一类问题。
整理的第一步,是把所有原始笔记转换成统一的格式。每条观察需要包含四个要素:
- 谁:哪位参与者。用编号(P1、P2、P3)而不是真名,便于后续分析时在多条笔记里看到"P1 和 P3 都遇到了这个问题"这样的信息。
- 做了什么:具体的行为描述。动作、操作对象、发生了什么,越具体越好。
- 在哪个步骤:任务几,流程的第几步。这个定位让多场测试里的同类观察可以被放在一起比较——"五个用户都在任务二的第三步遇到了障碍"这个规律,只有在每条笔记都有步骤定位的情况下才能看出来。
- 反应:用户的情绪反应或语言输出,如果当时有记录的话。用户的原话比主持人的概括更有价值,哪怕只是半句。

举个例子。同一个观察,标准化前后的区别:
- 标准化前:"P2 找不到收藏,很迷茫。"
- 标准化后:"P2 / 任务一第二步 / 在商品详情页停留 45 秒,手指划过收藏图标两次但未点击,最后点击了加购按钮 / 说'我想存起来看,但不知道放哪'"








