2018年,3D视觉成为计算机视觉领域的热点。
2017年,苹果率先推出具有3D视觉功能的iPhone X,其“刘海平”成为众多厂商模仿的对象。今年9月,苹果将一口气发布三款带有“刘海平”的手机。同时,根据该机构的预测,2020年全球智能手机3D视觉硬件市场将达到99.25亿美元,其中苹果手机为31.48亿美元,安卓手机为67.77亿美元。
iPhone有自己的硬件和软件生态系统来支持其3D视觉。那么,安卓手机呢?3D视觉的机遇和挑战是什么?
8月8日,旷视科技联合3D行业四家企业举办了主题为“感受世界——真3D现在”的研讨会,对上述问题进行了深入探讨。
桀骜不驯的3D视觉软硬件集成方案3D视觉智能手机之风无疑是被iPhone刮来的。
2017年9月,苹果发布了iPhone X,其中最大的亮点就是Face ID。被吐槽最多的“刘海平”(原深度相机系统),就是用来实现这个功能的。在“刘海”区域,苹果塞了8个传感器。除了麦克风、扬声器、前置摄像头、环境光传感器、距离传感器等大家熟悉的部件外,还集成了红外镜头、泛光照明器和点阵投影仪。传感器将投射不可见光,读取用户面部的3D几何结构。苹果公司甚至为此开发了一种神经引擎,利用神经网络处理图像和点阵模式来建立人脸的数学模型。
独创的深度相机不仅可以做Face ID,还可以实现动态AR贴在脸上,还有Animoji,可以动态追踪面部表情。
原始深度相机包含了从基础芯片、算法到应用的所有创新。为了做出这款独创的深度相机,苹果已经花了十几亿美元收购了十几家公司,包括人脸识别、传感器、算法等公司。在生产过程中,也遇到了很多问题。雷了解到,2016年苹果做了4万台iPhone X,但实际落地时出了大问题,好不容易等到2017年才发布。
苹果在前置原深度摄像头方面领先所有手机厂商,arKit则完全释放了后置摄像头的潜力,甚至超过了几年前就开始布局手机AR的谷歌。苹果能做ARKit最大的优势自然是能自己做软硬件,而且能快速适配软硬件。
国内厂商3D视觉不能依赖谷歌,需要自己探索。2018年6月19日,OPPO发布了OPPO Find X机型,搭载了旷视提供的3D结构光技术;2018年6月27日,vivo在MDC发布TOF 3D超感应技术,由旷视科技提供的3D人脸建模算法支持。目前,迪法恩斯已经与更多厂商达成合作。
吴文昊回想到为vivo提供解决方案的经历:我们第一次接触到vivo ToF项目。当时,我们面临许多挑战。首先,生态链和供应链实在是太复杂了。项目的见面会上,有来自欧洲、资本、美国的10多家厂商,涵盖传感器、模组、光电子、芯片。做软件的不懂硬件,做硬件的不懂软件。如何串联整个产业链是最大的问题。
在这个过程中,我们越来越深刻地认识到,真正的落地,一定是应用驱动的。以刷脸支付为例。应用场景决定了识别的准确性和防止活体攻击的能力。所以算法和软件商其实是在这个价值链的顶端,他们可以从上到下驱动很多细节。
吴介绍,“虽然手机3D视觉领域有多种类型的应用案例,但该领域包括算法、模块在内的软硬件整体解决方案仍然缺位。迪法恩斯科技正在尝试一种自上而下的整合方案。”
由此,旷视发布了“软硬件一体化移动智能3D产品解决方案”。包括人工智能算法、解决方案、传感器、芯片等的3D应用。
应用层:人脸识别解锁、3D人像灯光效果、3D美颜、3D整形、AR游戏、虚拟试穿等。
3D算法:MegBrain深度学习引擎、3D识别/重建算法、人脸识别、活体检测、注意力检测与跟踪等。人像三维建模和人体三维建模。与Bellus 3D、Altizure等公司联合进行该领域的研发;
解决方案:根据不同应用场景对深度计算、深度还原、深度优化、标定、畸变校正等能力的需求,设计基于双摄、三摄、深摄的解决方案;
硬件模块:摄像头、传感器、芯片等硬件模块的研发,藐视与艾姆斯半导体等3D硬件模块厂商的合作,也会与各大芯片厂商合作,开发算法适应性更强的芯片。
此前在我的印象中,旷视更多的是一家计算机视觉算法公司,但要做软硬件的整合者,旷视如何形成自己的壁垒?
吴文豪告诉雷锋。首先,公司的定位。你想从算法/软件厂商成为软硬件解决方案提供商吗?你愿意做出这样的改变吗?其次,你有没有决心找到一个合适的合作伙伴来真正垂直整合这四层?
智能手机3D视觉的机遇和挑战被忽视。为Android阵营提供iPhone的3D视觉能力需要软硬件的整合。但是我们仅仅是为了造一个iPhone X吗?这个刚刚成型的领域有哪些机遇和挑战?
有四家3D视觉公司参与了讨论:Bellus3D、Aimee、朱克创新和重叠数字。Us3D是一家来自美国硅谷的移动3D人脸扫描公司,专注于为手机等移动设备提供高分辨率的3D人脸扫描、建模技术和产品;艾姆斯半导体是全球领先的先进传感器解决方案的设计者和制造商,拥有四种传感器:图像、光学、环境和音频。核心技术之一是VCSEL。Altizure由香港科技大学教授全龙创立,致力于将二维图片还原为三维模型的实景三维全自动重建服务;重叠数字技术由麻省理工学院博士于景毅创立,建立了一套以光场采集、处理和显示为核心的解决方案。
这四家公司涵盖了他们想要构建的软硬件集成解决方案的四个方面,从硬件到软件再到应用程序。
苹果发布了iPhone X,花了很多钱,但是现在除了Face ID没有其他杀手级产品。吴文豪一直强调,内容和应用将推动3D视觉产业链的发展。
Bellus3D首席执行官陈子鸿介绍了未来3D视觉可能的杀手级应用,包括:
VR中的人脸建模可以把真实的人脸放到VR游戏中,增强沉浸感。
3D视觉帮助用户选择眼镜,完全根据人脸的情况定制,以后可以手机配眼镜。
AR试妆,试一下。
吴文豪认为,新的杀手级应用有三个层次:
新的硬件形态,手机已经伴随我们10多年了,未来还会有新的消费电子产品出现。我觉得一定是以3D和AR为主要卖点的产品。这离我们不远。
3D一定要和智能结合,AI 3D一定是非常大的杀手级应用场景。现在在做这样的事情,像AI相机一样拍照。我们认识并理解这是蓝天,这是草地。有了我们的3D物理信息,一定能做出非常好的很酷的照片效果。
随时随地的产品,移动互联网展示了随时随地连接互联网的魅力,激发了电子商务,O2O和自行车共享。当3D变得无处不在,我们可以随时随地对现实世界建模,这是一件非常酷的事情。
在讨论iPhone X的时候,大家更多的提到了前置摄像头,因为它的发展更快,但是我们可以看到后置摄像头也是未来的趋势。蝶晶科技联合创始人徐宏透露,目前很多做后置摄像头模组的厂商也找到了蝶晶。我们现在和迪法恩斯合作,是秘密阶段,但是很快就会应用。
后置摄像头中,开创者是Google Tango。Google Tango配备了可以绘制完整3D的硬件和软件,可以精确描绘关于周围环境的3D地图,使移动设备拥有与人类一样的空间和运动感知能力。O Tango开创了基于视觉的3D运动跟踪和场景建模,谷歌设计了用于3D跟踪和场景建模的传感器和移动计算平台。
但是如果要搭载Google Tango的解决方案,每个主机厂都需要进行特定的传感器校准过程,这会增加主机厂的成本。当时应用不成熟,导致很多厂商排斥谷歌。(延伸阅读:深度|移动AR,谷歌为什么早起赶晚集)
目前,ARKit和ARCore已经安装在数亿部智能手机上,AR应用也越来越丰富。现在传感器技术比较成熟。大家都在期待配备深度摄像头的后置摄像头的出现,可以更好的理解和感知环境,提供更真实的ar效果。此前,雷Feng.com已经了解到,华为不仅在做前置深度摄像头,还在做后置深度摄像头。
但是,我们还不知道的是,什么样的AR应用,能够促使大家认为后置深度摄像头是必不可缺的?Google Tango的主要应用是解决室内导航的问题。当GPS无法在室内使用时,它可以在不依赖任何外部设备的情况下提供设备的定位。这似乎不是刚需。
这一波智能手机3D视觉受手机AR的影响,但更深层次的或许是AI的发展。
全在雷锋网举办的CCF-GAIR 2018大会上分享。计算机视觉的下一步将是三维重建。他说:“目前因为深度学习技术的发展,人工智能变得非常火热,计算机视觉作为人工智能的一个领域也变得异常火热。然而,目前计算机视觉的研究和应用主要集中在‘识别’上,而‘识别’只是计算机视觉的一部分。如果要做一些交互和感知,首先要还原三维,所以在识别的基础上,下一个层次必须走向‘三维重建’。”
当然,在3D视觉方面,深度学习会遇到新的挑战,等待行业内的先行者去迎接。
3d视觉相机
近日,螳螂视觉科技有限公司也完成了1.38亿元人民币的A轮融资,由商汤国祥资本(人工智能产业基金)领投,文星史圣、普陀科学投资跟投,原股东螳螂视觉参与了此轮投资。
螳螂成立于2018年,主营业务为3D视觉技术的底层R&D和应用拓展。团队来自SAP、欧菲科技、IBM、Intel等高科技企业,具有丰富的技术开发和市场营销经验。
该公司首席执行官陈颖表示,在人工智能领域,与平面2D成像相比,3D成像可以呈现更清晰的数据,如观察对象的位置、形状和大小等它会成为人工智能的核心传感器,告诉你每个行业数字化后是什么样的状态。
对于AR、VR应用以及最近火的“元宇宙”概念来说,3D影像是一个重要的内容元素。陈颖表示,元宇宙的概念分解涉及软件、硬件、显卡等元素,而螳螂视界针对的是元宇宙的“内容”部分。
智慧芽专家表示,截至最新,螳螂视觉科技有限公司及其关联公司在126个国家/地区拥有113项专利申请。从上述专利申请来看,公司专利申请较为分散。过几年专利申请总量会很高,然后过几年专利申请量会急剧下降。近几年公司的专利申请总量并不高,每年不到5件。值得注意的是,目前公司的上述专利基本都是发明专利,因此可以说公司是一家创新型的初创企业。
根据智慧芽专利的技术构成数据,螳螂视觉拥有“以光学方法为特征的测量设备”相关专利50项,“读取或识别印刷或书写字符或识别图形”相关专利28项,“立体视频系统”相关专利26项;多视图视频系统;其零部件”。