学习笔记:Robust Statistical Label Fusion through Consensus Level, Labeler Accuracy and Truth Estimation (COLLATE)

Citation: Asman A J, Landman B A. Robust statistical label fusion through consensus level, labeler accuracy, and truth estimation (COLLATE)[J]. Medical Imaging, IEEE Transactions on, 2011, 30(10): 1779-1794.

学习者:巩博文

对于医学图像结构的分割和描述在对于医疗相关情况的定量与定性分析中是首要任务。目前已建立的一个分割的黄金标准是神经学专家人工的、一个一个维度的进行标签。然而这种方式会耗费大量时间、资源,且会根据实际观测而变化。相关的研究也会因此受限。因此,用统计学方法对多组label数据进行融合的方法被提出。而传统的方法并不能估计出每一个进行labeling的方法进行性能估计。而作者阐述和利用COLLATE(COnsensus Level, Labeler Accuracy and Truth Estimation)可以提供更加健壮的数据标签融合方式,同时也可以对每个观测方法进行性能检验。以下将从几点来阐述文章的内容。

一、COLLATE算法说明

COLLATE一个最基本思想是,一组性能较弱的学习机器等同于一个性能很强的学习机器。利用统计学方法,可以同时对每个进行贴标的来源进行性能估计,同时也可以得到一个最接近真是结果的数据集。已经提出的方法有STAPLER(Simultaneous Truth and Performance Level Estimation with Robust Extensions)。不过利用COLLATE方法,可以解决STAPLE算法的一些短板,作者在模拟测试中,也对结果进行了对比。

数据定义:

COLLATE算法中,作者首先定义的如下几个数据,用R向量表示进行贴标的R个方法。N向量表示数据的N个维度。标签集L表示了对于N个维度的所有可能标签集。矩阵D表示R个贴标方法对与N个维度的结果,即Dij表示j个贴标方法对于第i个维度的结果。向量T表示每个维度的真实结果。COLLATE特别提出的N维向量C,表示了每个维度的正确分割的概率。对于每个贴标方法R,有一个表示其性能的矩阵θ。

算法过程:

COLLATE的估计流程如下图。

 

COLLATE算法利用E-M算法,迭代的对结果进行似然估计。重所周知,E-M算法每次迭代分为两步,E-Step 和 M-Step。E-Step对整体数据的log似然方程的条件期望进行估计,M-Step对性能参数进行最大化的估计。作者在估计时为简化,对于结果情况进行了二项简化,对其似然估计的结果为

其中

结果中的  为权重量,表示真实结果中维度i标签为s、共识标签为Ç的概率。

在E-M算法中,当结果达到收敛时,迭代便结束。实际中算法运行时迭代的次数要依据数据集和贴标机质量来确定,在最坏的情况下,据作者经验,COLLATE算法大约迭代20次左右即可完成。由此可见,算法亦有较高的效率。

模拟运行结果

在一个理想运行中,作者所得结果如下

图中A为理想的真实结果,B、C为两组贴标机生成数据,D为STAPLE算法所得结果,E为COLLATE算法所得结果。

作者通过几组不同数据对COLLATE算法进行了检测,每次均与STAPLE算法做对比,进行了了在理想数据、数据自适应优先、模糊边界数据和人工数据的情况下的数据融合工作。从结果中可以发现,COLLATE算法避免了模糊边界中可能出现的标签倒置情况,同时相比STAPLE算法,其结果有更高的精确性。

总结

在融合标签数据结果中,COLLATE算法相比以往算法,在准确反应贴标机行为和估计方面有大幅度的提升。同时相比STAPLE,COLLATE算法很好的避免了标签倒置的问题,同时提过了结果的准确性。作者通过在图像分割时对贴标结果的数据用COLLATE算法进行融合,大幅提高了结果的准确性,使得一些研究领域可以更快的、更自动化的进行。


anyShare分享到:
This entry was posted in 学习笔记, 研究探索. Bookmark the permalink.

发表评论