iGEM中的合成生物设备构建的推荐系统问题

2014年的iGEM比赛中,BioDesigner包含了一个推荐系统。它的推荐算法是将相邻的biobrick的作为关联关系,然后统计这些关联关系的频率。其实,该算法存在一些问题。

BioDesigner的任务应该将推荐与预测进行区分。推荐部分,先采用成熟的推荐算法来进行求解。在使用关联规则时,不应该将相邻的biobrick作为关联关系。关联规则的方式是先寻找频繁子集,这种子集中的元素其实没必要相邻。这种统计方法可以避免数据库中生物设备数据缺失的问题。而推荐功能的输出应该是一个biobrick集合,而不存在连接关系,这才是经典推荐算法的功能。

预测部分,主要利用biobrick的连接来进行实现。这部分,其实可以利用隐马尔科夫模型来实现。实际上,每一个生物设备链,都可以作为一条状态链,通过构建HMM模型,得到各biobrick的连接关系。然后对于新设计的链,可以通过已经采用的biobrick连接,来计算下一个可能连接的biobrick的最大概率,通过此方法,来预测出下一个可能使用的biobrick。

推荐与预测有些类似,主要的区别应该是,推荐功能中,一个用户选定一个track,或者几个biobrick,推荐出与之相关的一系列biobrick,这些biobrick不一定存在连接关系。而预测功能中,一个用户构建了一部分biobrick链,则只需要预测下一个可能连接的biobrick,这个biobrick是必须与当前的链进行连接的。

以上功能尚需验证,此为备案。

anyShare分享到:
This entry was posted in iGEM and tagged . Bookmark the permalink.

发表评论