首页 文章详情

受果蝇启发的哈希算法!用“生物学上合理的”突触可塑性规则生成哈...

新智元 | 649 2020-02-23 23:20 0 0 0
UniSMS (合一短信)











e1a34dd2000728c89c91a3d778820642.webp


  新智元报道  

来源:VB

编辑:王汐,元子

【新智元导读】FlyHash是一种受果蝇嗅觉电路启发的算法,已证明该算法可生成哈希码,性能优于经典算法。不幸的是,由于FlyHash使用随机投影,因此无法从数据中学习。为了克服这一限制,研究人员开发了BioHash,该技术应用“本地”和“生物学上可行的”突触可塑性规则来产生哈希码。「新智元急聘主笔、编辑、运营经理、客户经理,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」


听说过FlyHash吗?这个算法的灵感来自于果蝇的嗅觉回路,它可以产生哈希码——物体的数字表示——其性能优于经典算法。不幸的是,由于FlyHash使用随机投影,它无法从数据中学习。


为了克服这一限制,普林斯顿大学、圣地亚哥大学、IBM Research和MIT-IBM Watson AI实验室的研究人员开发了BioHash,它应用“局部”和“生物学上合理的”突触可塑性规则来生成hash码。他们说,它比之前发布的各种哈希方法的基准测试都要好,而且它可以生成对相似度搜索有用的二进制表示。


0d24f1eb62f96d88e325e8d4ee33bf7e.webp


正如研究人员在一份预先印刷的论文中详细解释他们的工作,这种被称为扩展表征的现象在神经生物学中几乎无处不在。在此上下文中,“扩展”是指将高维输入数据映射到甚至更高维的辅助表示。例如,在上面提到的果蝇嗅觉系统中,大约有50个神经元将它们的活动发送到大约2500个叫做Kenyon的细胞中,实现了大约50倍的扩展。


从计算的角度来看,扩展可以增加AI模型的内存存储容量。正是基于这种动机,该团队设计了散列算法BioHash,可用于相似度搜索。


在相似度搜索中,给定一个查询、一个相似度度量和一个包含任意数量项的数据库,目标是从数据库中检索与查询最相似的项的排序列表。当数据是高维的(例如图像或文档),而数据库很大(以百万或数十亿计的条目为单位),这在计算上是一个具有挑战性的问题。但是,近似解通常是可以接受的,包括一种称为位置敏感哈希(LHS)的哈希方案,其中每个数据库条目都用二进制表示进行编码,并检索密切相关的条目。


FlyHash利用LHS, BioHash也是如此。但重要的是,BioHash速度更快,可扩展性更强。


研究人员在MNIST和CIFAR-10上对Biohash进行了培训和测试。MNIST是一组包含7万张灰度图像的手写数字,其中10类数字从“0”到“9”不等,CIFAR-10是一个包含6万张来自10类数字(如“car”、“bird”)的数据集。他们说,BioHash在速度方面表现出了最好的检索性能,远远超过了其他方法,而BioHash的改进版本——BioConvHash——由于加入了专门构建的过滤器,性能甚至更好。


该团队断言,这提供了证据,说明扩展表示之所以在生物中普遍存在,是因为它们执行LHS。换句话说,他们把相似的刺激聚在一起,把不同的刺激分开。“我们的工作为以下提议提供了证据:LHS可能是稀疏膨胀电路利用的基本计算原理……Biohash以数据驱动的方式产生稀疏的高维哈希码,并以神经生物学上可行的方式学习突触。”


事实证明,神经生物学和机器学习领域是密切相关的。谷歌母公司Alphabet旗下的DeepMind本月早些时候发表了一篇论文,研究大脑是否以概率分布(一种提供不同结果发生概率的数学函数)而非单一平均值来代表未来可能的奖励。谷歌和马克斯·普朗克神经生物学研究所的科学家最近展示了一种递归神经网络——一种经常用于手写和语音识别的机器学习算法——它可以映射大脑的神经元。


参考链接:

https://venturebeat.com/2020/01/21/ibms-biologically-inspired-ai-generates-hash-codes-faster-than-classical-approaches/

1bb791a07f41d880d6e5ea826d5cf268.webp
good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter