在人工智能技术不断进步的今天,芯片行业的领导者MediaTek的研究部门MediaTek Research带来了新的技术突破。他们最新的研究成果对神经网络中的多层感知机(MLP)架构进行了全新的设计,提出了一种叫做“沙漏”的模型结构。这一创新不仅打破了传统MLP的模式,还有望大幅提升AI模型的推理和学习能力,为智能设备提供更强大的支持。
传统MLP(多层感知机)作为深度学习的基础组件,常采用“等宽”或“渐缩”结构,即各隐藏层的神经元数量保持不变或逐层递减。然而,这种方法在处理复杂任务时存在信息瓶颈和冗余计算的问题,导致能效低下,尤其在资源受限的移动设备上表现不佳。

MediaTek Research此次提出的“沙漏”架构,创新性地采用“先缩后扩”的结构设计:网络前半部分逐步压缩特征维度,形成一个高密度的“瓶颈层”,随后在后半部分逐步恢复并扩展特征表达。这种形似“沙漏”的结构,能够在保留关键信息的同时,大幅提升模型的信息提炼能力与泛化性能。
“这不仅是结构上的变化,更是一次思维范式的转变。”MediaTek Research负责人表示,“我们不再追求‘更深’或‘更宽’,而是强调‘更聪明’的结构设计。沙漏架构让网络在有限资源下,实现更高效的特征学习与重构。”
实验数据显示,在相同参数量和训练数据下,采用“沙漏”MLP的模型在图像分类、语音识别和自然语言处理等任务中,准确率平均提升3%-5%,同时推理延迟降低约15%。尤其在边缘设备上,其低功耗、高效率的优势更为突出,为智能手机、可穿戴设备和物联网终端的本地AI处理提供了全新可能。

更值得关注的是,该架构具备良好的兼容性,可无缝集成至现有AI框架中,无需大规模重构即可实现性能跃升。MediaTek计划将这一技术应用于下一代天玑芯片的NPU(神经网络处理单元)中,推动端侧AI从“能算”向“慧算”进化。从“堆叠参数”到“精巧设计”,MediaTek Research的这项突破,标志着AI芯片研发正从“算力竞赛”迈向“架构创新”的新阶段。