【例会】Detecting abnormal events on binary sensors in smart home environments

主持人:赵春阳

参会老师:杨矫云

参会学生:李雨龙、刘硕、郭思伊

时间:2019年8月7日

本次例会学习讨论了文章:Detecting abnormal events on binary sensors in smart home environments

摘要

随着人口老龄化的加剧,智能家居技术已被证明是一种有前途的模式,可实现技术驱动的医疗保健服务。智能家居技术由先进的传感,计算和通信技术组成,提供了前所未有的机会,可以跟踪老年人的行为和活动,并提供环境感知服务,使老年人能够在自己的家中保持活跃和独立。然而,经实验表明,异常的传感器事件妨碍了对关键(并且可能危及生命)情况的正确识别,并且当应用于多个人时,现有的学习,估计和基于时间的情境识别方法是不准确和不灵活的。共享生活空间。我们提出了一种名为CLEAN的新技术,它将传感器读数的语义与统计异常值检测相结合。我们针对不同环境中的四个真实数据集评估该技术,包括具有多个居民的数据集。结果表明,CLEAN可以成功检测传感器异常并提高活动识别精度。

 

方法

我们将传感器异常检测视作异常值检测问题,我们假设大多数传感器事件都是连贯的,并尝试检测少数传感器事件,这些事件与大多数事件的行为不一致。有许多不同的离群检测算法,这里我们选择一个非监督的解决方案,一个基于聚类的离群检测算法——FindCBLOF 。该技术已成功应用于检测异常网络行为。FindCBLOF的基本原理如下:

1.将所有数据点聚类成组,并按大小按降序对组进行排序;

2.对于每个数据点,计算它的基于群集的本地异常因子(CBLOF),该因子是该点所属的群集大小与该点与最近的大群集之间的相似性的乘积。

也就是说,CBLOF越小,点和更大的簇就越不相似,因此该点更可能是异常值。

 

为了使FindCBLOF算法适应传感器事件中的异常,我们需要解决以下四个问题:

  • 两个传感器事件之间的距离测量值是多少?
  • 我们如何将群集定义为“大”?
  • 由于传感器事件不是静态的,而是流式传输和连续数据,因此异常传感器事件很可能会重复发生。我们如何考虑传感器的历史行为并将其与CBLOF结合起来?
  • 我们如何在CBLOF上设置一个阈值来决定哪些数据点是异常值?

 

传感器事件之间的距离测量

 

我们将传感器事件表征为语义特征[t,l,o,u],分别表示时间戳文本,位置,对象和用户。例如,传感器事件可以表示为[2008-02-25T00:20:14Z,卧室,门,主要用户]。在这里我们采用本体方法,将每个特征空间中的概念组织成基于其粒度级别的层次结构。在上面的示例中,卧室,门和主要用户分别是位置,对象和用户特征空间中的概念或实例,并且它们与其他对等概念的关系可以是:卧室 ⊆ 睡眠区域 ⊆ 生活环境,门 ⊆ 可移动结构,以及主要用户 ⊆ 居民。

我们可以使用层次结构来量化其任何两个概念的相似性。吴等人提出了一个概念上的相似性函数,它通过找到两个输入概念的最小公共子集(LCS)并计算从LCS到根节点的路径长度来工作。LCS是两个概念作为祖先共享的最具体的概念。由下式给出:

1

 

 

 

其中c1和c2是特征空间中的概念,N1(N2)是c1(c2)与c1和c2的LCS节点之间的路径长度,N3是LCS和根之间的路径长度。

最后,任何两个传感器事件s1和s2之间的距离可以定义为

2

其中sim是层次概念的上述相似度函数,ωi是每个特征的权重,反映了每个特征对捕获两个传感器相似性的重要性。

 

群集的排序

一旦我们定义了任何两个传感器事件之间的距离度量,我们就可以将它们聚类。聚类传感器序列将导致多个组,其中一些组可能对应于来自不同用户的不同活动,而其他组可能包含异常事件。因此,正如原始算法所假设的那样,一个簇不太可能占据绝对多数数据点。为了解决这个问题,我们使用肩部定位方法;我们按照它们的大小对簇进行排序,并且它们的大小的突然变化表明了区分大型和小型簇的阈值。例如,在图1中,我们将给定的传感器序列聚类为六个聚类,并且它们的大小与整个数据点的百分比按降序分别为40%,38%,12%,5%,3%和2%。

3

考虑历史传感器行为

 

如前所述,异常传感器事件可能是持续而非一次性的,特别是由于技术退化或移位等引起的异常。在这里,我们考虑两个额外因素:频率和时间性。我们假设传感器表现异常的频率越高,越近,故障再次发生的可能性越大。我们将这两个因子作为权重应用于指数函数中的CBLOF:

4

 

其中N是被监视的传感器事件的总数,f是某个传感器报告的最后N个事件中的异常事件的次数。N的选择取决于传感强度。

5

其中td是当前时间与上一次异常报告事件之间的时间距离,T是感兴趣的时间范围。

最后,对于每个数据点,扩展的CBLOF将是

6

 

 

结论

本文介绍了CLEAN,这种技术利用统计驱动的异常值检测方法中的传感器语义来检测异常事件,通过将从各种传感器收集的流传感器事件作为输入,CLEAN检测并移除异常事件,该异常事件可用于过滤作为任何活动识别算法的输入的数据。我们在真实世界数据集上展示了它的性能,这些数据集具有各种环境,传感器部署,生活在环境中的用户数量以及数据集中潜在的噪声程度。使用四种不同的活动识别分类器,我们证明CLEAN在存在噪声的情况下提高了活动识别率。由于目前CLEAN只能检测多出来的“噪音”,暂时不能检测出缺失的“数据”,我们未来针对这一点,对CLEAN进行改进。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论