VR/AR临床实验设计中的注意事项

alpha版


声明

本文遵守创作共用-署名-非商用协议。

本文不能作为临床研究的依据。

本文不明确推荐具体商品。

临床实验设计是一门独立的课程,有丰富的内容,本文仅能提供简单的介绍。

觉得文章太长可以先看《……太长不看版》

起因

看了未来影响高精尖创新中心的《长时间使用VR头戴显示设备对低年龄用户视力的影响测试报告》 。这个实验的目的是非常好的。游戏、教育都是VR/AR的重要应用领域,当前确实缺乏儿童使用VR/AR的临床研究,但该实验中仍然有很多需要改善的部分。

VR/AR技术,特别是VR/AR显示技术与眼科学密切相关。除了对儿童视力影响的探索,2017年的ARVO会议上,孙兴怀教授团队也报告了利用video see-through技术进行弱视训练的研究([^ARVO热点丨弱视治疗新进展:增强现实双眼分视训练])。未来VR/AR有更多在眼科学上的应用。也会有更多的VR/AR企业需要进行医学相关的研究与实验。

下面,我简单介绍下一个比较正规的VR/AR临床研究应该怎么做。

伦理

临床研究中,很重要的是要遵守临床研究的伦理。一个正规的临床实验是应当按照《赫尔辛基宣言》的要求进行实验设计并交由伦理委员会审议批准的。对于VR/AR企业一方面是合法合规做事,一方面也有一定的自我保护。

相关的内容请查阅《赫尔辛基宣言》,其中最重要的原则,一是要首先考虑受试者的健康,二是知情同意原则。

  1. 受试者的健康

如果VR/AR实验的实验对象是儿童,需要更严格的保护。已知的,可能对儿童的健康造成不利影响的事情都不应该做。例如:

  • 实验场地:应该有足够的防护,避免发生儿童磕碰的事故。
  • 实验软件设备:VR/AR游戏应选择与儿童年龄相称的游戏,避免血腥暴力恐怖等游戏。
  • 实验硬件:应当适合儿童使用。其中应当注意VR/AR头戴显示器的瞳距是否可以供儿童使用。硬件瞳距的范围与被试的瞳距不相符时,会产生不良的健康影响,应当避免。例如HTC Vive的最小瞳距是60mm,那么瞳距<60mm的儿童就应当排除在实验之外。

  • 知情同意

实验开始前,应当向实验对象讲解实验以及实验过程中可能出现的风险,取得实验对象的同意后,才可以进行实验。如果实验对象是儿童,除了向儿童本人讲解实验过程和注意事项,还需要向儿童的监护人,也就是家长和老师讲明,并且应当签署正式的知情同意书。

所以在实验设计好以后,知情同意书也需要同时设计好,并且一并交给伦理委员会审议批准。

研究团队

研究团队中是可以有企业参与的,并且也可以由企业提供资金进行。但是需要在实验发表时公开披露。资金有企业来源的,往往会被解读为广告。

由于实验数据的测量中会使用大量眼科专业设备,并需要专业测量技能,所以建议研究团队中应当有视光学背景的专业人士,例如眼科医生、验光师。

实验数据的处理与解读可能也需要统计学或流行病学专业人士的协助。

实验设计

临床研究面向的对象都是人。与程序员面对的抽象对象、硬件工程师面对的硬件模块不同。人是非常复杂的,对人的测量往往具有极大的误差。与机械加工中的公差分析是不同的。

对测量人体生理、心理指标的误差,工程师很可能是估计不足的。程序员大概无法想象每个unitTest的返回值都会先经过一个不一定是正态分布的随机数处理一遍的系统,这才是人类。

临床实验设计就是要尽量排除人为的影响。需要设定对照组,可能需要设盲,实验对象的数量也有一定的要求。不同的实验设计,能够提供证据的强度也不一样。一般来说,一次实验最可信的是大规模多中心的随机双盲实验(RCT)。实验设计是一门课程,有很多书籍和公开课可供参考,也有专业的CRO公司提供相关的服务。

简单的说,实验中一切的人类都是坏人,你的实验对象可能会有意无意说谎,可能突然就退出实验;你的助手可能有意无意记录错误的数据,在模棱两可的时候故意偏向错误;其中最坏的就是设计者你本人,有些事情如果被你预先知道,你就会压迫助手,欺负实验对象,使他们屈从于你,产生错误的结果。实验设计的目的就是向大家公布,我们都这么坏了,但由于严谨的实验设计,我们实在无法钻空子作假。

实验目的

做过科学研究的人知道,实验的目的不可求大,不要妄图在一个实验中解决庞大的问题。比如“对视力的影响”其实是个很庞大的范畴。实验目的需要尽量清晰明确地定义。当然在收集数据的时候可以尽量全一些,同一个临床实验可以产生很多不同目的的文章。

实验对象

实验对象是需要经过选择的,但是应当有明确合理的纳入标准和排除标准。

纳入标准,应当是能够代表总体的样本标准。比如随机抽取某个学校一个年龄段的学生。但纳入标准如果不合适则可能造成“选择偏倚“。

排除标准,至少应当把可能会因为VR/AR造成损伤的被试排除在外。

比如有感染性眼病的患者可能因为共用VR/AR头戴显示器而传播疾病,斜视的患者在使用VR/AR后更容易产生疲劳,前庭功能障碍的患者可能在使用VR/AR时更容易眩晕,癫痫的患者也许会在VR/AR场景中被诱发等等。不过有些实验可能就是为了使用VR/AR来治疗某种疾病,那么就需要依照具体情况来确定排除标准了。

即使是正常人,也需要有一定的限制,比如儿童的瞳距不同,对于硬件瞳距不能适应的儿童,瞳距不合适更容易加重视疲劳,影响实验的准确性。应当排除在实验之外。

实验对象的数量,要根据所测量的指标来定。不同的测量指标分布是不同的,离散程度、误差等也不同,为了最终可以得到有意义的比较结果,需要高于一定的数量。但实验对象太多了,物资成本和时间成本又会飙升。具体的样本量估计的方法,请查阅相关的统计学教程。

在选择儿童作为实验对象的时候,还应当考虑到儿童心理、生理发育的影响。比如年龄过小的儿童,很可能无法理解实验员的解说,或者要让儿童长时间保持注意力集中,难度极大。另外,儿童或青少年也许会以破坏规则作为乐趣。

对于眼睛,不同年龄的儿童也是不同的。人眼睛8岁的时候才达到正常眼轴的长度。6岁的孩子可能还有+1.50D左右的远视,10岁的孩子也可能有+1.00D的远视。

实验测量的指标

视觉是一组互相关联的知觉,有物理成像的过程,有心理知觉的过程,有认知处理的过程,还有人体反馈的过程。测量的方式也有客观和主观测量的不同。需要根据实验目的和实验的实际情况来选择。

视力

检查的是人眼的角度分辨能力。看起来测量视力很简单,只要对着视力表指指点点,让被试指出方向即可。但其中仍然有很多需要注意的地方。

  • 视力表的选择。医院里检查常用的是Snellen视力表,或标准对数视力表。记录方式是1.5、1.0之类的小数记录。这种视力表使用方便,在临床中很常用,但并不适合科学研究。人类的感觉信号通常是对数编码的,还受到周围环境的影响,并不是简单的线性系统。使用Snellen视力表测量后很难进行统计分析,测量过程也容易受到干扰。所以真正发表科研论文时,应当使用LogMAR进行记录和分析,使用的是LogMAR视力表
  • 检查环境。视力的测量对周围环境光、灯箱的背景光都是有严格要求的。需要按照视力表中所标注的要求进行设定。
  • 检查过程。恐怕很多实验设计者已经忘记了自己小时候体检测视力的过程,如果排成一队依次检查。实际过程是,很多孩子在看视力表之前已经将下面几行熟记于心了。或者后面的孩子会在被检查者的后背上画出结果来。即使是使用了新的LogMAR视力表,如果检查后的孩子回到未检查的队伍中,信息也会很快传开。

对比敏感度(CSF)

视力测量只测量了黑白分明时候的角分辨能力。但日常生活中这种情况并不是常规。有些人视力检查结果很好,但却在黄昏不敢走楼梯,因为在暗环境下的分辨力下降了。这就要用对比敏感度来测了。不严格地用工科概念的类比,相当于在测量系统的调制传递函数MTF。(CSF近似于成像的MTF乘以神经系统处理的MTF)

对比敏感度的测量比测量视力要时间长一些。可以用灯箱,也有更为紧凑的仪器可供使用。

色觉

色觉的检查一般是使用印刷的色盲本。这种检查只能对色觉作出粗略的定性分析。但对于VR/AR实验可能不够。如果使用计算机屏幕进行色觉的模拟,需要注意不同的屏幕对颜色的显示能力是不同的,要看屏幕对与CIE颜色空间的覆盖程度。

屈光状态

电脑验光仪可以迅速检查被试的屈光状态,是近视、远视以及是否有散光,散光的轴位。但是电脑验光仪的重复性稍差,容易受到调节的影响,其中球镜部分(也就是近视远视)的可信度低,散光稍好。更好的测量方式是使用综合验光仪进行显然验光,但显然验光的过程较长,如果需要在短时间内测量大量的被试,需要在准确性和时间之间作出选择。

标准的屈光状态记录方式是:

OD: 裸眼视力,近视/远视度数 DS≎散光度数DC X 散光角度,矫正视力

OS: 裸眼视力,近视/远视度数 DS≎散光度数DC X 散光角度,矫正视力

右眼、左眼、双眼的缩写分别是OD、OS、OU。

例如,右眼裸眼视力0.6,有100度近视,75度近视散光,轴位在70度,戴镜矫正后视力可以达到1.0,

可以记录为:VOD: 0.6 -1.00DS≎ -0.75DC X 70° → 1.0

眼压

眼球是一个有弹性的球体,里面填充的是液体。内部是有压力的。眼压是由房水动态调节的,一部分人眼压调节能力失调,产生了青光眼,其中闭角型青光眼应当避免暗环境,以免瞳孔扩张后引起眼压突然升高。

测量眼压可以用气动眼压或接触眼压计来测量。

泪液

眼泪的多寡常常会影响到视觉疲劳状态和视觉质量。比如视疲劳中常见的描述往往会有眼睛"干涩",就是与泪液分泌有关。

泪液常用的测量是Schimmer实验和BUT实验。

  • Schimmer实验是在下眼睑边缘挂一个滤纸,给定时间以后测量泪液浸润的距离。但这个实验对操作要求高,误差大。
  • BUT实验是测量泪膜破裂时间,在眼内点上荧光素,在裂隙灯下观察泪膜上第一个暗区出现的时间。要注意的是荧光素试纸容易污染。也有人使用电脑验光仪进行粗略的估计。

现在有眼表分析仪可以测量BUT、泪河宽度、睑板腺状态等。

双眼视觉

人的眼睛有一双,有很多功能是双眼协调使用时才表现出来。双眼视觉的功能测量,例如:调节幅度、调节灵敏度、聚散储备、调节集合比等也需要测量,可能需要使用综合验光仪进行。

调节

在进行视疲劳的研究时,应当测量被试的调节。这是一个客观的指标。在给予不同刺激后,调节的变化过程可以提示很多信息。眼内睫状肌的疲劳程度也可以以此反应。当前已经有测量调节的仪器,相当于高速连续进行电脑验光。

调节的测量中还应当使用综合验光仪测量被试的调节幅度。

眼球运动

斜视的患者应当排除在实验之外,简单的遮盖去遮盖查实验可以发现一部分斜视患者。但如果没有检查,隐斜的患者可能不容易发现,这部分人能够用肌肉控制住斜视,在注视目标时并不会表现出来,但容易出现视疲劳。

人眼在看近处物体双眼向内聚的动作为集合,集合有一定的限度,集合广度、聚散力,聚散储备也可能需要测量。

AC/A

人眼在看近处物体双眼向内聚,这个动作称为集合(Accommodative convergence,AC),同时会动用调节(accommodation,A)改变眼球焦距,使人眼能够清晰对焦。进化使这两个动作是联动的,一旦双眼向内看,会自动启动调节。AC/A可近似视为常数。(会有随年龄的变化,但短时间内可视为不变量)

在当前的VR/AR设备中,仅仅使用一个平面上的显示器来显示物体,所以人眼在看时AC是有的,A则不一定变化,调节集合反射被破坏了。这是当前VR/AR设备中未能解决的技术困难,有可能未来通过光场显示、高速变焦显示等方法来解决。

AC/A数值是可以测量的,AC/A自身异常的人可能也需要排除在实验对象之外。

立体视

VR/AR由于显示时区分了左右眼,所以能够产生双眼立体视觉。已经比眼科常用的立体视检测手段更高级了。但当前VR/AR头戴式显示器与人眼的视野范围还不一致。人眼的视野范围一般是内侧60度,外侧90度,VR头戴显示器常常会标出一个对角线视角,比如100度,但当前的硬件设备中,双眼内侧常见是使用挡板隔开的,内侧视野不足60度,那么可能对于立体视觉的感知区域就与实景中是不同的。

VR之外还有AR/MR,在与实景交互时,需要知道人感觉到物体空间位置和真实位置之间是否一致,差异有多少。这部分并没有现成的眼科测量手段可用。但也有很多文献做了探索,比如移动实物去对齐虚拟场景中的物体。

注意,当VR/AR技术进步到复杂的光场技术甚至全息技术时,测量的可能就是“单眼的立体视”了,也就是所谓的调节线索,物体远近不同时,人眼对焦到一处时另一处可能是模糊的。如何判定系统真的表现出了这种调节线索,如何客观测量,如何定性、定量分析,需要进一步的研究。

问卷调查

视觉是个知觉过程,其中必然还要涉及到很多人脑分析的部分,会得出许多主观、客观混合的指标,比如“舒服“、"疲劳"、"不适"等等,其中一部分客观指标可以测量,但也有可能需要通过问卷进行调查。

问卷调查之中有很多学问,问卷应尽量使用成熟的量表。

在VR/AR实验中,有一些需要注意的地方:

  • 如果被试是儿童或者青少年,要注意儿童的认知理解能力,是否可以使用特定的问卷。
  • 被试的配合程度。儿童和青少年是否愿意如实回答问卷中的问题。
  • 问卷是使用笔试还是口头测试?笔试的好处是速度快,可以同时多线程处理很多被试。但如果是被试自己阅读答题,这一过程本身也是一次视近操作的过程。测量过程也会影响视疲劳的程度。

数据的记录、处理、统计分析与展示

这些都是统计学里讲到的内容,请查阅相关的统计学教程或者公开课。或者请专门的统计学老师进行指导。

基本的原则是:正心诚意。坦然接受客观的实验结果。特别是对于企业,实验结果对于未来多年的研发有指导意义,操纵数据无异于拿着坏掉的罗盘指路。

由于一切都是采样,一切都有误差,将两组数据的平均值直接比较,说谁比谁大,谁比谁好,是完全没有意义的。

由于一切都是采样,一切都有误差,画柱状图不标出error bar,直接比较谁比谁高,是完全没有意义的。

使用3D统计图容易使读者产生误判,不应出现在正规的临床研究中。

漂亮的信息图示,比如用人物剪影的大小代表数量的多少,容易使读者产生误判,不应出现在正规的临床研究中。

虽然很多新闻报道中在批判科学家们对P<0.05的迷思,但假设检验仍然是得出结论的必由之路。没有经过统计学的假设检验,就声明两组数据谁比谁好,是没有意义的。与理工科的文章不同,生物医学文章里如果连个P都没有出现,读者是不会相信文章内容的。

即使使用了统计学假设检验,要注意假设检验的方法是有不同的适用条件的,不满足适用条件而使用是错误的,得出的结论也是没有意义的。

很多假设检验的方法要求数据来自于正态分布的总体,但不是所有的数据都是正态分布的,比如用小数记录的视力,就不一定是正态分布。不是正态分布的数据,平均值和标准差并不能反映数据的特征。

结果与讨论

实验的结果只能由经过统计学假设检验后的结果给出。

比如说实验对象使用VR/AR以后,视力有改变。不是说实验对象使用VR/AR前的平均视力是多少,使用后的平均视力是多少,两者一减,发现平均视力提高了,就是视力变好,平均视力降低了,就是视力变差。

如前所述:

  1. 是否有足够多数量的被试?只有几个人是没意义的。

  2. 视力表用的是什么视力表,记录方式是不是LogMAR直接导致了是否可以用“平均“数来比较。

  3. 检查视力的手段是否可靠,使用前查完视力以后,孩子们聚在一起编了个视力表歌谣,把视力表背得滚瓜烂熟,不管用不用VR/AR,第二次检查肯定提高了。

  4. 视力检查的数据是否是正态分布,是否满足正态分布的检验。如果不满足,可能要经过处理,比如取log之类,使偏态分布转变成正态分布。

  5. 如果数据是正态分布,被试眼数量有50,比较使用VR/AR之前和之后的视力,通常是应该使用配对t检验。如果此时选择非参数检验,个人认为可能有作弊之嫌。

  6. 当看到配对t检验的结果表明差异有显著性以后,才能说明在多大的错误概率内,使用VR/AR会改变视力。

  7. 使用二维的柱状图展示使用VR/AR前后的数据,并且每个柱状图上应当用error bar标记出标准差。

上述环节中某一个步骤出错或者不够严谨,都不能够得出有效的结论。

眼科与视光学专业的注意事项

以上是针对软件硬件工程师提出的一些注意事项。反过来,对于眼科学、视光学专业的医生、研究生,在设计实验时也有一些注意事项

如果没有软件和硬件开发的经验,眼科与视光学专业人士可能也很难理解VR/AR开发中的困难。如果你在跟工程师或者程序员交流时使用了“……就行了“,"只要……了呗"这样的句式,通常你的想法是错的。

硬件的限制:

现阶段(2017年中),VR/AR所能呈现的视觉效果距离真实或者说人眼能够区别的极限,还有相当远的距离。工程师所制造的产品是在性能与成本中尽量取得平衡。超越当前技术水平的硬件,有些理论上有、新闻上有,但由于未进入主流市场生产量小,价格极高。

  • 透镜像差:这一点无需赘述。出于重量考虑,VR设备还有可能使用菲涅耳透镜,其像差估计和计算可能会更复杂。
  • 分辨率:常见的屏幕分辨率大约是400-600ppi,也就是每英寸25.4mm上有400-600个点。如果通过透镜成虚像在2M之外,角分辨率远远不能满足1.0视力的要求。(索尼另算)
  • 采样定理:屏幕像素是一格一格的,屏幕能够满足1.0视力的要求,不一定能够显示出0.9和1.2的视标。至少要满足最高频率的2倍。
  • 刷新率:屏幕的显示图像的速度,一般是每秒钟60幅,也就是60FPS,近期可以达到90FPS
  • 颜色:液晶显示器使用RGB三种颜色来组合产生色觉,显示器所能够产生的颜色要比人眼在真实生活中感知到的颜色少很多。
  • 亮度:液晶显示器在屏幕背面使用LED经过匀光板产生照明,照明的亮度是有限的。匀光板不一定能够产生均一的照明,也就是说屏幕一侧与屏幕另一侧的亮度可能是不一致的,差距需要实际测量。
  • Gamma校正:屏幕的亮度不一定是与像素的数值是成正比的,比如屏幕像素上黑色=0,白色=255,那么灰色128和密集排列黑白从远处看可能是不相同的。
  • 衍射:透明的液晶屏相当于密集的光栅,会产生明显的衍射效应。
  • 可视角度:从不同的角度去观察液晶屏幕,颜色和亮度可能不一样。
  • 公差:制造有误差。降低误差成本会迅速提高。
  • 良品率:一种东西实验室作出了可用的一件,不等于工厂里能够生产出高质量的成千上万件。
  • 遮光:市售AR设备没有能够遮挡自然光的能力。在外界实景上只能加图像,不能减图像。

软件限制:

  • 软件很贵,购买软件和生产软件都很贵。
  • 程序员不一定会修电脑。
  • 程序运算需要时间,屏幕上像素越多,需要的时间越多。有可能无法达到需要的要求。
  • 计算一个事情花的时间,可能跟处理的数据量成正比,复杂度叫O(N),也可能需要处理的数据量的平方成正比,O(N^2),甚至复杂度是非多项式时间,例如$ 2^{O(N)} -> O(N!)$,这种难度与抢银行相当。
  • 计算机的内存有限制。比如要计算一个1k屏幕上点与另一个屏幕上点的两两组合,需要$(10^3 \times 10^3)^2 \times 4 = 4 \times 10^{12} =4TB $
  • 不同语言写出的程序运算速度不同。
  • 深度学习很贵。
  • 人月神话:3个人干3个月的事情,9个人可能要干2.5个月。

商业限制:

  • 疾病发生率常以万分之几、十万分之几计算,玩游戏的人口则安百分之几计算,中间差很多数量级。玩游戏的人才是推动硬件进步的力量,玩游戏的人多了才有VR/AR治病。
  • 全国眼科医生不超过2-3万名。
  • 并不是所有人都花钱买软件。
  • 产品经理答应的事情,程序员和硬件工程师不一定能做出来。

参考