当今需要理解的视觉数据量不断增加,迫使计算系统的计算能力持续攀升。在一系列应用中,如自动驾驶、机器视觉、智能家居、遥感、显微镜、安防监控、国防和物联网等,计算成像系统需要记录和处理前所未有的大量数据。这些数据不是给人类看的,而是由人工智能 (AI) 算法来解释。
博览:2020 Nature 基于深度光学和光子学的人工智能推理
技术背景:
当今需要理解的视觉数据量不断增加,迫使计算系统的计算能力持续攀升。在一系列应用中,如自动驾驶、机器视觉、智能家居、遥感、显微镜、安防监控、国防和物联网等,计算成像系统需要记录和处理前所未有的大量数据。这些数据不是给人类看的,而是由人工智能 (AI) 算法来解释。
在这些应用中,深度神经网络(DNN)以其无与伦比的性能迅速成为视觉数据处理的标准算法。这主要得益于现代GPU的强大并行计算能力以及海量的数据集使得DNN能够使用监督学习的策略有效训练。然而,运行越来越复杂的神经网络的高端GPU以及其它的加速器,对功率和带宽的需求是惊人的,且需要大量的计算时间和庞大的体积。这些限制使得DNN难以应用在边缘设备(edge devices)上,如相机、自动驾驶汽车、机器人或物联网的外围设备等。很难想象把一个这样的计算单元放在高速行驶,需要瞬间做出判断的自动驾驶汽车上。实际上,具有更紧凑的体积、更低的延时、更轻的重量、更小的功耗的计算成像系统对所有的边缘设备都有利。
DNN有两个不同的计算阶段:训练和推理。在训练阶段,大量被标记的样本输入DNN,使用迭代的方法针对特定任务优化网络参数。一旦训练完成,DNN就可以用于推理阶段,在这时,数据(如图像)输入网络,经过前馈传递,计算出需要的结果。GPU在某些应用中可以用于推理,但是由于上述原因,在边缘设备中使用GPU是不实际的。
尽管电子AI加速器灵活性强,但是光学神经网络(ONN)和光子电路提供了一种新的选择。光学计算系统能够以小的体积实现大规模并行计算,适用于小型设备,并且在某些应用中几乎没有功耗。事实上,使用光在计算系统中实现通信的光连接已经广泛应用于当今的数据中心,越来越多地使用更深入计算系统内部的光连接可能对持续扩展至关重要。与电连接不同,随着光学、光电子和电子更深层次的集成,光连接在带宽密度和每比特能耗方面可以有数量级上的改进。这种改进的连接可以实现混合电子-光学DNN,并且相同的低能耗、高度并行的集成技术可以用作模拟光学处理器的一部分。
当前不足:
尽管光计算具有巨大的潜力并且经过大约半个世纪的集中研究,但通用光计算尚未成熟为实用技术。
文章出发点:
推理任务(尤其是视觉计算应用)非常适合用全光或混合光电子系统来执行。例如,线性光学元件可以“免费”计算卷积、傅立叶变换、随机投影和许多其它运算,即,这些是光与物质相互作用或光传播的自然结果。这些运算是驱动大多数现代视觉计算算法的 DNN 架构的基本构造模块。基于此,美国斯坦福大学的Gordon Wetzstein和美国加州大学洛杉矶分校的Aydogan Ozcan等人撰写综述文章,回顾了人工智能应用光学计算的新工作,并讨论了它的前景和挑战。
工作回顾:
(1) 用于人工智能的光子电路。现代DNN架构是线性层(linear layers)级联的,线性层后面是重复多次的非线性激活函数。常见的线性层类型是全连接的,这意味着每个输出神经元都是所有输入神经元的加权和,即乘法累加(multiply accumulate,MAC)运算。这在数学上表示为矩阵向量乘法(matrix-vector multiplication),可以在光域中有效地实现。自早期光学计算工作以来发生的一个具体变化是,人们认识到特定架构(例如,基于奇异值矩阵分解的架构)中的马赫-曾德干涉仪 (MZI) 网格(mesh)可以实现任意矩阵乘法而不会产生基本损耗(fundamental loss),这些架构也很容易配置和控制。
具体来说,zui近的硅光子神经形态电路已经证明了使用相干光对矩阵向量乘法的奇异值矩阵分解实现。在这种情况下,在硅芯片上制造的MZI实现了逐元素乘法。这种设计代表了使用光的神经网络z关键构建模块之一的真正并行实现,现代代工厂(foundry)可以轻松地批量制造这种类型的光子系统。
这种设计的挑战之一是 MZI 的数量随着向量中元素数量N以N2增长,这是实现任意矩阵的必要结果。随着光子电路尺寸的增加,损耗、噪声和缺陷也成为更大的问题。因此,构建足够准确的模型以在计算机上对其进行训练变得越来越困难。克服这一困难的方法包括设计对缺陷具有鲁棒性的电路,自动“完善”电路,或在原位训练光子神经形态电路等。
作为基于MZI的MAC的替代方案,Feldmann等人。zui近推出了一种基于相变材料 (phase change materials,PCM)的全光神经突触网络。在此设计中,PCM单元实现线性层的加权,而与环形谐振器耦合的PCM单元实现类似于修正线性单元 (rectified linear unit,ReLU) 的非线性激活函数。Tait等人还使用微环权重库(micro-ring weight bank)来实现循环硅光子神经网络。
将全光非线性纳入光子电路是真深度光子网络的关键要求之一。然而,在低光信号强度下有效实现光子非线性激活函数的挑战是1990年代对ONN兴趣减弱的主要原因之一。过去十年的创造性方法,例如基于全光微环谐振器、可饱和吸收器 、电吸收调制器或混合电光方法的非线性阈值器,代表了在不久的将来克服这一挑战的可能解决方案。早期的“自电光效应(self electrooptic effect)”器件概念也可能提供混合解决方案。
zui近发表了对神经形态光子学和用于神经网络的光子MAC的综述。在后一篇综述中,作者提供了光子线性计算系统及其电子对应物的详细比较,并考虑了能量、速度和计算密度等指标。这项研究的主要见解是,在考虑大处理器尺寸、大向量尺寸和低精度操作时,光子电路在所有这些指标中都表现出优于电子实现的优势。然而,作者还指出了电光转换的高能源成本的长期挑战,现在正迅速接近电子链接(link)的能源成本。
光子电路可能成为未来人工智能系统的基本构建块。尽管在过去 20 年中取得了很大进展,但仍面临重大挑战。今天的电子计算平台具有可编程性、成熟和高产量的大规模制造技术、3D实施机会、内置信号恢复和增益以及强大的内存解决方案。此外,现代数字电子系统具有高精度,这是模拟光子系统无法轻易比拟的。然而,人工智能系统通常不需要高精度,尤其是在用于推理任务时。尽管传统上光子系统的可编程性更加困难,但zui近已经证明了简化过程的第1步。
总体而言,光子电路的能力在过去十年中显著增加,我们已经看到在过去阻碍其应用的一些关键挑战方面取得了进展。然而,为了与电子产品竞争,光子计算系统仍然面临着基本的工程挑战。一个似乎特别适合光学和光子处理的方向是使用非相干光进行光学推理,以在环境照明条件下快速处理场景信息。这种方法为自动驾驶汽车、机器人和计算机视觉提供了许多令人兴奋的机会。
(2) 基于自由空间、透镜和复杂介质的计算。
光子电路的替代方案是直接在通过自由空间或某种介质传播的光场之上构建计算能力(见图1)。在数学上,自由空间中的波传播由基尔霍夫衍射积分描述,这相当于场与固定核的卷积。此操作代表了卷积神经网络 (CNN,大多数视觉计算应用程序的第1选择神经网络架构) 的基本构建块之一。然而,为了使波传播成为光学计算的有用工具,我们需要可编程性。例如,卷积核能够被设计。这可以通过傅立叶光学实现,光路中特定的透镜排布可以将物理上正向或逆傅立叶变换应用于光场。插入到光路傅立叶平面中的光学元件实现了输入场与光学元件的幅度和相位的逐元素相乘。通过卷积定理可知,这对应于输入场与插入光学元件的逆傅立叶变换的卷积。因此,可以使用透镜和其它光学元件以光速将图像的光场与任意卷积核进行卷积。
过去,这种见解已被用于设计光相关器(optical correlator)。这些设备实现了单个卷积,直接对非相干光学图像执行模板匹配,例如用于目标检测和追踪。虽然这个想法代表了现代CNN的卷积块的光学实现的重要一步,但使用单个内核的卷积非常具有限制性。CNN通常在其每一层中同时使用许多内核进行卷积。为了解决这种差异,可以调整经典的傅立叶光学装置以在光学中实现并行卷积并模拟单个CNN块的功能(见图1)。因此,近年来在实现与现代CNN紧密匹配的光学计算能力方面取得了快速进展。然而,傅立叶光学方法的一些剩余挑战包括实现光学非线性激活函数的难度以及相对于光子电路的大型器件外形。
前一个挑战可以使用混合光电子计算方法解决,再次使电光转换过程的效率成为主要瓶颈(尽管高度集成的节能光电子学具有可以解决这种高效转换的潜力)。
为了实现比经典傅立叶光学光路更紧凑的设备外形,可以利用其它波-物质相互作用进行光学计算。例如,可以使用散射层代替透镜。每一个散射层代表优化后的振幅或相位调制调制,以一定间隔安装,以实现全光分类算法。有趣的是,更复杂的优化非均匀介质形状可用于实现循环神经网络,例如元音分类。然而,这并不是我们可以利用散射介质的唯yi配置。
在许多情况下,光在密集、复杂的介质中的传播类似于将输入场与随机矩阵混合。这代表了一个有趣的计算操作,并且已被证明几乎是压缩感知的理想选择。在这类应用中,每个输出像素都是输入的随机投影,很像单像素相机范式(paradigm) 。这种方法还保留了大量信息,允许在没有成像的情况下从深度上恢复一些功能信号(具体指的是从深层散射组织中恢复功能性荧光信号),这对于神经科学来说可能特别有意义。该方法也适用于训练神经网络,如通过多模光纤成像或通过薄或厚散射介质成像。此外,复杂介质本身已经发现可以看作是神经网络的一种光学实现:连接权重是随机矩阵的系数,非线性是相机检测过程中强度的转换,可以在不成像的情况下直接执行分类任务。这种光传播的数学重构可以开辟非常有趣的光学计算研究途径,特别是在任何使用大规模随机矩阵乘法的计算问题中,包括储备池计算(reservoir computing)、相位复原和计算成像等。
(3) 基于深度计算光学和成像的推理。
计算成像是一个专注于光学和图像处理协同设计的领域,例如增强计算相机的能力。尽管相机被用于执行许多不同的任务,但今天的相机旨在模仿人眼。它们捕获3D环境的二维(2D)投影,通常具有三个颜色通道。然而,其它动物的眼睛以非常不同的方式进化,每一种都完美地适应了它们的环境。例如,某些螳螂虾的光感受器不仅对光的偏振态敏感,而且包含多达12个不同的光谱带,这些特征适合其光谱丰富的珊瑚礁生存环境。因此,相机可以适应独特的环境或针对特定任务进行优化,就像动物的眼睛一样。
使用传统传感器捕捉螳螂虾所见shi界的挑战之一是它们整合了不同维度的视觉数据。传统的2D传感器集成了入射全光函数的一定范围内的信息,即在波长谱、入射角和场景深度、特定时间窗口的某个范围上采集信息,并且其动态范围也受到限制。因此,我们可以将现有的传感器看作为一个瓶颈,阻止了一些视觉信息被采集到。光学工程师可以自由设计具有特定点扩散函数 (PSF) 的相机镜头,使用光谱选择性滤光器设计传感器像素的光谱灵敏度,或选择设计其它属性。然而,开发专用成像系统的挑战在于如何z好地设计此类仪器并利用这些工程能力。
在这种情况下,将相机解释为编码器-解码器系统是有帮助的。一个或多个镜头通过其深度变化点扩展函数将场景投影到2D传感器上,从而对传感器上的场景进行光学编码,然后光谱过滤器确定如何集成色谱。通常,电子解码器从原始传感器测量中估计某些属性。使用可微分图像形成模型,我们可以模拟 3D 多光谱场景在传感器上的光学投影,然后使用算法处理该数据。因此,我们可以将相机设计的问题整体视为光学和成像处理的端到端优化(见图 1)。这种“深度”计算相机可以在离线阶段进行训练,以优化高层(high level )损失函数的性能,例如图像分类或目标检测。与传统的计算机视觉方法类似,这种训练过程优化了神经网络的权重或另一种可微算法的参数。然而,我们的编码器-解码器解释更进一步,允许将高层损失函数的误差一直反向传播到相机的物理参数中。因此,物理镜头和深度神经网络可以由损失函数和训练数据集定义(见图 2),针对特定任务进行联合优化。优化后,物理层(在此示例中为镜头)可以制造并用于执行推理任务,例如比传统数字层更稳健、更快或使用更少的功率对采集的图像进行分类。这种光学和图像处理的端到端优化被称为“深度光学”。
在过去的一年中,已经为各种应用提出了几种深度光学方法。例如,该策略适用于优化传感器滤色器阵列的空间布局、新兴神经传感器的像素曝光、显微镜和深度传感的结构化照明模式,以及用于扩展景深的自由曲面透镜的面型、图像分类 、平面相机、高动态范围成像、波长解复用或使用传统2D相机进行深度传感等 。特别是深度意识(depth awareness)对于许多任务至关重要,包括自动驾驶、机器人视觉、医学成像和遥感。
尽管光学编码器-电子解码器解释为端到端相机设计提供了直观的动机,但它并不是深度光学成像方法中使用的相机的唯yi解释。我们还可以将光学器件的工作原理解释为一种计算,即作为预处理或协处理器与处理记录数据的电子平台一起工作。通过这种解释,我们可以尝试通过让光学器件完成尽可能多的工作来优化计算成像系统的延迟和功率要求。zui近的研究表明,这种解释允许在光学中实现深度网络的单个卷积层、全连接层或其它参数化层。在光学中实现神经网络或其它AI算法的一部分具有改进系统延迟、内存使用、电源效率、对噪声或其它测量退化的鲁棒性以及手头任务的准确性的变革潜力。然而,为计算机视觉和成像应用开发真正的深度光学成像方法的挑战之一依然是在光学中难以有效的实现非线性激活层,这些非线性激活层在通常由相机捕获的非相干光的低光强度和宽带宽下工作.
(4) 在显微镜中的应用。
深度学习方法产生显著影响的另一个领域是光学显微镜,其涵盖各种模态,包括相干成像以及明场和荧光显微镜。几十年来,解决显微图像重建和增强的逆问题一直是研究的热门话题。先前方法的一个关键组成部分是建立成像系统的前向模型。基于深度学习的数据驱动方法为解决光学显微镜中的逆问题提供了另一种途径。经过训练后,DNN可以提供一个非常快速的框架来执行图像重建和增强任务,而无需任何迭代、参数调整或物理前向模型。深度学习在光学显微镜中的应用包括明场显微镜、无透镜显微镜、荧光显微镜、超分辨率显微镜、共聚焦显微镜, 结构照明显微镜等。
在显微镜中也有深度学习的新兴应用,根据我们目前对光-物质相互作用的理解,不可能建立准确的正向模型。这方面的一个例子是跨模态图像转换,其中 DNN使用来自两种不同成像模态的输入和ground truth图像数据进行训练,两种成像模态之间不可能建立准确的物理联系。例如,zui近的工作使用 DNN 将无标记组织样本的自发荧光或定量相位图像转换为明场等效图像。在这里,不仅成像方式从荧光(或相位成像)变为明场,而且样品在染色过程中也经历了一些转变,这使得建立准确的物理正向模型变得非常困难。另一个这样的跨模态图像转换网络用于将单色全息图转换成具有明场显微镜的空间和光谱对比度的等效图像等效图像,该图像在空间和时间上都是不相干的,没有全息成像的相干伪影。
从基于深度学习的计算成像的角度来看,真正将显微镜与宏观成像区分开来的是显微镜在硬件、照明特性、光-物质相互作用、样品特性和尺寸以及成像距离等方面的精度和可重复性,这些都是数据驱动的计算显微镜技术取得新成功的核心。此外,即使在一天内,自动扫描显微镜也可以生成足够大的图像数据,例如包含超过 100,000 个训练图像pathes以稳健地训练模型。
在显微镜中使用基于深度学习的方法的一个重要问题是幻觉(hallucination)和伪影的可能性。一般来说,显微镜专家可以识别伪影,因为它们包含看起来不真实的特征。相比之下,幻觉是指无法轻易与样本的“真实”特征区分开来的特征。DNN 可以通过各种物理驱动的约束进行正则化,通过设计它们的训练损失函数以包含物理项;因此,将物理模型和相关约束与基于学习的图像转换相结合,可以为未来的计算显微镜方法形成一种强大的混合方法。我们还相信,基于深度学习的计算显微镜逆问题解决方案将产生更好的正向模型的设计以及更好的图像形成和重建理论的新理解。
此外,还有一些潜在的策略可以减轻DNN模型的幻觉或伪影,至少可以警告用户何时修改或微调他们的模型。例如,这可以通过监控新输入数据的统计距离以及来自训练或验证输入和输出对的相应网络输出来实现,这可用于量化成像系统来自于假设和训练阶段状态的偏差。训练阶段。迁移学习可用于在需要时有效地微调现有模型。事实上,这种通过附加数据和迁移学习对网络模型进行“定期维护和校准”的方法对于高ji测量仪器来说在概念上并不新鲜。
我们还应该考虑已建立的模型从一种仪器到另一种仪器的可移植性。在特定显微镜硬件上训练的网络模型原则上应该在共享相同设计和组件的其它仪器中有用。然而,这在文献中尚未得到广泛探讨,并且模型的成像性能从一种显微镜仪器到其它仪器的权衡仍有待大规模量化,以更好地理解迁移学习的水平和所需的校准方法在具有相同光学设计和组件的新仪器上忠实地运行经过训练的模型。
深度学习还创造了使光学显微镜任务特定化的新机会,其中显微镜的功能将扩展到观察到的物体特征之外,还包括推理——例如通过优化的光学集成和电子计算识别感兴趣的空间或时间特征。我们相信,未来支持深度学习的显微镜设计将在前端使用特定任务的光学处理器。根据特定显微成像任务的性质,将照明连接到样品或将样品连接到光电探测器阵列的前端计算光学接口以进行优化,类似于zui近演示的衍射系统通过光的衍射执行计算。这种范式还将改变光电探测器阵列本身的设计(例如,像素的配置及其位置、形状和数量),使光学和电子之间的探测器接口成为另一个可训练的参数空间。因此,光学前端、光电探测器和后端电子计算构成了一个完全可训练的显微镜。
我们认为,这些新型“思维显微镜”可以缓解与当前显微镜设计相关的一些挑战,这些挑战通常会获取不必要的大量数据,从而为数据采样、存储、处理和相关能源需求带来巨大负担。通过深度学习方法全面优化显微镜的设计,一个特定任务的显微镜可以潜在地以更少的像素(或三维体素)、更高的帧率和更小的功率执行所需的推理或成像操作,并且还大大降低了数据存储要求。与传统的图像形成、数字化和处理顺序不同,支持深度学习的显微镜将合并和扩散所有这些功能(包括对其设计所有方面的推理),从而作为一个单一的任务优化系统工作。
参考文献:Wetzstein, G., Ozcan, A., Gigan, S. et al. Inference in artificial intelligence with deep optics and photonics. Nature 588, 39–47 (2020).
DOI:https://doi.org/10.1038/s41586-020-2973-6
关于昊量光电:
上海昊量光电设备有限公司是光电产品专业代理商,产品包括各类激光器、光电调制器、光学测量设备、光学元件等,涉及应用涵盖了材料加工、光通讯、生物医疗、科学研究、国防、量子光学、生物显微、物联传感、激光制造等;可为客户提供完整的设备安装,培训,硬件开发,软件开发,系统集成等服务。
您可以通过我们昊量光电的官方网站www.auniontech.com了解更多的产品信息,或直接来电咨询4006-888-532。
本文章经光学前沿授权转载,商业转载请联系获得授权。