编者按:曾几何时,摄影就只是光和影的艺术加上镜头和传感器的技术。但现在随着计算能力和人工智能慢慢渗透到这个领域,一些传统的职业可能就要推出历史舞台了,比方说照相馆,比方说产品摄影,甚至连模特都受到了威胁。Sai Krishna V. K盘点了计算摄影在各个领域的应用,原文标题是:The Death of the Photo Studio
划重点
***近摄影领域给人留下***深刻印象的进展发生在软件和芯片层面,而不是传感器或镜头这些东西
过去10年摄影业经历了两次变革:1)智能手机 2)计算摄影
计算摄影会极大降低产品摄影和模特摄影的成本,这个行业的很多领域会被颠覆
GPT-3的能力正在被运用到计算摄影上面
我们都喜欢有一张好照片。照相馆和摄影的历史可以追溯到第①部照相机诞生的19世纪。***早的摄影工作室利用了画家的照明技术来创作肖像。在我的国家,印度人会几代同堂,一起聚集在工作室的灯光下,好拍出一张***的全家福。从那时起,我们已经走过来一段令人难以置信的漫漫长路。
现如今,那些负责给众多家庭和个人拍摄全家福和个人肖像的照相馆已经全部消失不见了。心高气傲的模特、商业目录,甚至为了前往西方而进来拍护照证件照的大量家庭,也都几乎不怎么光顾了。但具有讽刺意味的是,我们现在点击的照片比以往任何时候都要多,分享这些照片的频度也比以往任何时候都要高。
鉴于过去十年技术的变革,这个行业的颠覆并不令人惊讶。这一转变发展到今天经历了两个不同的阶段。
第①阶段:***好的相机是你兜里的那部
当带着摄像头的iPhone推出时,其他的制造商都纷纷效仿;这些小型的传感器尽管用处很大,但在产生高质量图像的能力方面颇为受限。像Instagram这样的app在初期用滤镜弥补了相片质量的欠缺,令这款app广受欢迎。但是,自从Instagram推出以来,智能手机的摄像头改进的速度非常迅速。令这款app在早期火起来的功能不再有太大用处,因为智能手机拍摄出来的照片的质量已经得到了指数式的改善。
为迎合前数字化时代的印度客户而开设的大多数照相馆正在考借来的时间续命。在全球范围内,这些照相馆的数量现在正在持续减少。自拍时代的照相馆注定要变成这样一家企业,也就是观看和点击行为都要朝着一个结果发展——如何让客户点击一下就能得到一张照片,以及文件下载到计算机的速度如何。但是,是什么导致了手机照片的质量取得了显著提高的呢?
第二阶段:计算摄影
2015年,意识到自己在摄影领域已经落后了这么多之后,Google决定用工程的思维方式加大攻关力度。于是,知名的计算机图形学研究人员Marc Levoy 接管了Google Research的计算摄影团队,并评论道:
“软件定义相机或计算摄影相机的概念是一个很有前途的方向,我认为我们现在才摸到它的一点皮毛。随着我们从一次只能拍一张的硬件主导的摄影向软件定义的计算摄影这一新领域转变,我认为这一领域的有趣才刚刚开始。”
***近摄影领域给人留下***深刻印象的进展发生在软件和芯片层面,而不是传感器或镜头这些东西——这在很大程度上要归功于AI让摄像头更好地了解了自己所看到的东西。
如今,至少在开始后期处理之前,手机在某些情况下要比许多专业相机拍出来的照片还要好的情况并不罕见。这是因为在对摄影同样重要的另一类硬件方面,传统相机无法与手机竞争:这包括了CPU、图像信号处理器以及神经处理单元(NPU)的片上系统。
这种硬件,利用了所谓的计算摄影,这个广义的术语涵盖了你对智能手机要求的一切,从手机人像模式的“伪”景深效果,到帮助驱动令人惊叹的AR效果及滤镜的算法等。
计算摄影是指利用摄像头的计算机处理能力,在镜头和传感器拍摄成片基础上产生一幅增强的图像。其实摄影中运用计算机并不是什么新鲜事物。数字时代所有的相机都需要处理能力来生成图像。甚至在数字化曙光降临之前,胶卷相机就已经利用了处理器。处理器负责控制类似自动曝光模式、自动对焦以及闪光灯等的功能。大家对计算摄影的潜力已经有一段时间的了解了。但是,近年来,深度学习的进展又让智能手机拍摄打开了新技能。
HDR,散景及防抖
到目前为止,这是计算摄影的三个主要组成部分。***近,高亮黑白及夜间模式又加入了这份清单。后者更是充分展示了处理器的处理能力如何在在摄影当中变得越来越重要。
但是计算摄影的机制是怎么样的呢?
在过去,摄影师习惯于一种办法。按下快门,拍一张照片,然后再次按下快门。哪怕是***快的连拍模式也是以类似的方式工作的。那只是连续地拍摄单张照片,直到摄影师释放快门按钮为止。
而在计算摄影里面,当你按下快门时,相机几乎在同时会拍摄多张图像。然后,它会实时地将这些图像处理成一张照片。HDR就是其中***简单的一种,而且出现已经有一段时间了。相机会拍摄5、6张图像然后马上合并。
不过,只要看看散景就能看出现代的智能手机功能是多么的强大。基于物理的摄影中实现散景需要大传感器和大光圈,至少具有中等焦距的强光透镜。显然,用物理手段手机是不可能做到的。
为了解决这个问题,智能手机会拍摄多张图像,然后让每张图像只专注于特定的技术细节。比方说,可能需要分别拍摄来控制曝光、焦点、色调、高光、阴影以及人脸识别的图像。然后再将这些图像合并,分析每个镜头里面的所有数据,让将主体从背景中遮盖掉。然后它会给背景添加模糊效果来模拟散景 。所有这些其实都是实时完成的。
夜间模式和高色调滤镜也利用类似的处理器密集型技术。而且这些实际上还只是个开始。这些同样适用于视频领域。只需回顾一下过去几年的视频功能就知道这一点。不久以前,静态相机的标准视频格式还是1080p/24fps。而现在,大多数的新相机/摄像头都支持60fps的速度拍摄4k图像,而且很快就会突破120fps乃至240fps的里程碑。这是处理能力在短短几年之内获得巨大飞跃的结果。
现在,这种量子跃迁有望在另一个行业中流行起来,导致该行业可能会像人像照相馆一样走向灭绝。
电子商务摄影
怎么把椅子(或任何其他产品)拍得好看是一项痛苦的人力劳动
摄影工作室之间差别很大。有的很小,就那么1个人或几个人。有的就很大,多达数百名员工。一些工作室会处理完从交付、运输到营销的一切,而有的工作室会将这些需求外包出去。所有工作室多多少少都需要这些资源,但是获取资源的方式往往会有所不同。一般而言,摄影工作室会有:
▪摄影工作室工作人员:让产品活灵活现的创意人员
▪一间适当的工作室:主要的艺术空间
▪化妆和衣橱
▪暗房
▪道具室
▪平面设计空间
▪陈列室
▪物流部门:负责运输和接收产品
在网上卖东西要有出色的形象。
为什么?因为图像有助于建立信心并帮助转化更多的客户,而且图像是树立买家信心的主要来源。鉴于图像对于网上销售的重要性,企业会不遗余力地投入大量精力用于产品摄影的过程。但是,这个过程可能会很折磨人:
从拍摄到上架的复杂流程
产品摄影几十年来基本没怎么变。这意味着存在高成本、规模有限、工作流程脆弱等可观的瓶颈。比方说,如果你的企业或制造商决定变更产品详情或更换新的颜色,就得重复这整个过程。
点击渲染(Hit Render)
通过利用3D软件,品牌商现在不需要靠实际的拍摄就可以靠渲染来生成引人注目的视觉效果。虽然这可以突破产品拍摄的众多传统瓶颈,但3D渲染需要进行精细的建模,设置虚拟场景以及图像生成,这通常被称为“生活方式摄影”(lifestyle shots)。
GPT-3 (及iGPT)
由马斯克、Sam Altman、Greg Brockman以及机器学习领域的其他领袖共同创立的AI研究基金会OpenAI,***近推出一个API和网站,让大家可以访问一种叫做GPT-3的新型语言模型。在若干领域,GPT-3可谓一项真正的突破性技术。
GPT-3在本质上是基于上下文的生成式AI。这意味着,当赋予AI某种上下文时,它会尝试着完成其余部分。比方说,如果给它提供脚本的前半部分,它会继续执行脚本。给它一篇论文的前半部分,它会生成论文的其余部分。——Delian Asparouhov
今天的GPT-3是一种生成文本的机器学习模型。只要提供部分跟你想要生成的东西相关的文本,它就会补充剩余部分。
机器学习模型让你可以以史为鉴,基于过去的数据进行预测,而生成(创建文本)则是预测东西的一个特殊案例。GPT-3模型只需要通过少量的学习就能完成训练,这种实验方法似乎在语言模型中展出出了有希望的结果。GPT-3的出色表现引起了众多关注——它可以生成整篇已发表的文章、诗歌以及创造性写作,甚至还可以生成代码。
大家对GPT-3的兴奋主要集中在文本或书面内容上。Open AI正在探索将这种少样本学习系统应用到图像上,希望弄清楚将部分图像作为输入提供给同样的算法时会发生什么情况。
OpenAI的研究人员决定把单词换成像素,并用ImageNet (***受欢迎的用于深度学习的图像库)里面的图像来训练同样的算法。因为这一算法在设计上处理的是一维数据(也就是文本字符串),所以他们需要把图像展开成一个像素序列。他们发现这个叫做iGPT 的新模型仍然能够理解视觉世界的二维结构。只要给出图像上半部分的像素序列,它就可以预测下半部分,而且让人觉得合情合理。
***左边的列是输入,***右边的列是原始图像,中间列是iGPT预测补充完成的部分。
这个结果令人震惊,并展示了一条在计算机视觉系统开发中利用无监督学习的新途径,可以对未标记的数据进行训练
历史总是不断地重演——问题是,大多数人总是抱残守缺,直到为时已晚。这符合经典的颠覆性理论,GPT-3有望颠覆很多的领域,比方说web开发、用户辅助设计,以及现在的产品摄影(Product Photoshoot) 。