AIGC技术的落地,自然需要各种垂直化、个性化的工具发挥作用。这些工具可以在不同行业的工业流水线上部署,根据算法大量制作所需的产品。在第五章中,我们已经介绍了许多类ChatGPT的文本生成AI,本节将从图像生成AI、音频生成AI和视频生成AI三个方面,简单介绍目前AIGC技术的应用。
图像AIGC的多样
由于图像生成AI的可操作性极高,毫无绘画经验的人现在也可以根据自己的想法进行艺术创作。图7.3列举了目前AIGC产业中的多种图像生成AI产品。显然,图像生成AI将会改变未来人类进行艺术创作的方式。
现在的图像生成AI软件,往往只需要数分钟就可以生成人像、风景、抽象画,甚至可以模仿著名艺术家的风格作画。接下来,我们将介绍几款市面上常见的图像生成AI软件。
Fotor
Fotor是一款由成都恒图科技有限责任公司(简称“恒图科技”,创立于2009年)开发的图片编辑和设计软件。在公司创业伊始,Fotor只是一个照片编辑和设计软件,仅能提供基本的图片编辑功能,如裁剪、调整大小和基本的颜色校正等。经过多年努力,Fotor为用户提供了更多新颖的功能。2015年,Fotor发布了在线的图片编辑平台,用户可以更加便捷地享受服务。目前,Fotor已经覆盖了PC(个人电脑)、安卓和苹果三大主流平台,拥有Fotor网页版、Fotor iPhone版、Fotor安卓版、Fotor桌面版共计4个版本。2022年,Fotor宣布推出了自己的图片生成AI。它主要包含三大功能:第一个是使用AI自动生成图像,第二个是使用AI自动移除图片背景,第三个是通过AI强化图片的光影效果。
根据图7.4可知,Fotor的图片生成界面可分为多个区域。用户可以在左侧选择通过输入文字或上传已有图片来创作。用户可以输入一串连续的词组,决定生成图片的内容,随后还可以使用右侧的工具栏进行进一步调整,包括图片数量、大小、比例、光影效果和风格等。目前,Fotor已经拥有包括概念艺术、日本动漫、20世纪90年代动画、油画、浮世绘在内的共12种绘画风格。
图7.4 Fotor界面
如图7.5所示,我们要求Fotor创建“宇航员坐在椅子上”的图像。总体看上去还不错,但细节仍然有待加强。例如宇航员胳膊上的国旗图案非常模糊,右上角的太阳也只生成出了半个。
图7.5 Fotor生成的图片
AI自动移除背景和AI强化图片效果则是AI的两个实际应用。如图7.6和图7.7所示,我们输入“西湖大学的礼堂”,Fotor在几秒钟内就生成出了对应的效果图。虽然生成的速度非常快,但在图7.6中,背景并没有被完全移除,礼堂的一部分反而被移除了。光影效果的变换请参考图7.7,左侧为原始效果,右侧为增强效果。Fotor虽然增强了图片的光影效果,却也让图片的细节变得更为模糊。
图7.6 Fotor自动移除背景
图7.7 Fotor增强图片的光影效果
Fotor的最大亮点是其艺术功能的一体化。用户如果对AI创建出的图片不够满意,还可以立刻使用公司网站上提供的其他艺术编辑功能,对图片进行手动编辑,直到满足需求为止。
Hotpot.ai
来自美国的Hotpot.ai是一家新成立的软件公司。它以AI为驱动力,帮助专业或业余的设计师激发创造力,从而创作出富有想象力的作品。Hotpot.ai旨在通过易于操作的界面让任何人都可以创建具有专业水平的图片,最终创造一个公平的竞争环境。
自Hotpot.ai问世以来,它的功能已经从单纯的图片生成AI扩展到超过10种功能,包括生成大头照、移除照片内物体、老照片上色、光影增强等。除了图片生成AI外,Hotpot.ai也进行了业务拓展,推出了AI游戏和文本生成AI服务。
Hotpot.ai的用户界面包含三行。用户需要在最上面的空格中输入图片应当包含的元素,在第二行选择图片风格。第三行的“变化”按钮允许AI对输出的图片进行一些微调。在用户决定了图片生成数量后,它就可以进行图片生成了。
Hotpot.ai的优点在于多种AI工具的联动。你如果不知道要生成怎样的图片,就可以点击输入栏下方的“向AI寻求点子”,以此和Hotpot.ai的文本生成AI互动。
然而,Hotpot.ai也不是完美的,它存在两个致命的弱点。首先,它不能保证生成的每一张图片都是独一无二的。因此,如果希望将图片用于商业目的,那么用户就必须支付版权费。其次,Hotpot.ai的AI并不会完全按照输入的指令输出,甚至会生成和输入指令完全不同的图片,尤其是在用户打开“变化”按钮后。
NightCafe
2019年11月,来自澳大利亚悉尼的安格斯·罗素(Anges Russell)创建了名为“夜间咖啡馆的创造者”(Night Cafe Creator)的网络平台。起初,安格斯希望创建一个使用神经网络的转账程序。后来,安格斯发现了图片生成AI的蓝海,于是改变了开发的方向。2021年年中,安格斯注意到了一种名为VQGAN+CLIP的新模型。这种模型在生成油画风格的图片方面有着极佳的效果。安格斯团队基于这款新模型迅速研发出了NightCafe图片生成器,它很快成为最受欢迎的图片生成软件之一。
图7.8展示了NightCafe的主界面。和其他软件相比,NightCafe的界面相当简洁。用户只需要输入相应的词组,随后选择风格,就能够自动生成图片。NightCafe有两个优点。第一,它提供一种独一无二的艺术风格,即夜间咖啡馆风格。这种风格来自著名画家凡·高的画作《夜间咖啡馆》。如图7.9所示,我使用这种风格生成了一张名为《站在城堡前的人》的画。第二,NightCafe提供多种不同的算法,包括稳定扩散模型(Stable Diffusion Model)、DALL-E2模型、CLIP引导扩散模型(CLIP Guided Diffusion Models)和VQGAN+CLIP模型,共4种模型。用户可以通过使用不同的算法来比较算法对生成图片的影响。
图7.8 NightCafe的图片生成界面
图7.9 《站在城堡前的人》
除了图片生成功能外,安格斯团队还开发了社交平台。用户创建的所有图片都会自动上传到网站的画廊上,供网友鉴赏和点评。网站还允许用户添加好友或是建立聊天室,以便用户更好地交流艺术创意。
DeepAI
来自美国的DeepAI是一款一体化的图片生成AI软件。和同类型软件相比,DeepAI不仅能够生成图像,还可以生成文本及图片转换,为用户提供流水线式操作。DeepAI的图片生成步骤和同类型图片生成AI软件大致相同。它提供多达29种图像生成风格,但其中有很多需要购买会员后才能使用。DeepAI允许用户将生成的图片用于商业目的,甚至允许用户将图片制作成NFT(Non-Fungible Token,非同质化通证)进行出售。
然而,DeepAI有时不能准确理解用户指令,尤其是它的图片转换功能。如图7.10所示,我们输入命令要求DeepAI将图片翻转,然而DeepAI却将图片转为了黑白照片。
图7.10 DeepAI未能准确理解输入指令的示例
音频AIGC的流行
目前,AI越来越多地应用于音乐领域。在可见的未来中,它将影响音乐领域的各个方面,包括音乐创作、音效制作和音乐流媒体等。市场上的一些AI软件可以生成不同作曲家风格的作品,还有一些工具使用机器学习算法来生成全新的歌曲和声音。这些工具基本上都是开源的,这意味着任何人都可以访问并改进现有技术。接下来,我们将介绍几款市面上常见的音频生成AI软件。
AIVA
AIVA是由皮埃尔·巴罗(Pierre Barreau)于2016年在卢森堡成立的一家AI音乐制作公司。该公司专注于使用AI技术为电影、商业广告、游戏和预告片等制作配乐。[插图]AIVA是该公司采用深度学习技术打造的一款AI音乐制作软件,提供包括电子、摇滚、探戈甚至中国风在内的11种音乐风格。
使用AIVA创作分为两个步骤:音乐生成和音乐修改。AIVA提供数十个不同类型的音乐模板,用户可以在编辑界面进行试听。在选择好想要的音乐风格后,用户只需确定音乐的主和弦,AI就会自动生成符合要求的音乐片段。如果想要对生成的音乐进行微调,用户可以使用AIVA自带的音乐修改器对节拍、乐器、和弦或伴奏进行调整。
目前,AIVA生成的音乐在全世界范围内具有一定的知名度。在2017年卢森堡的国庆庆典上,卢森堡交响乐团就演奏了由AIVA谱写的乐曲《让它成真》(Let’s Make It Happen)。2018年,AIVA又以中国神话故事《女娲补天》为主题发布了专辑《艾娲》,其中包括8首具有中国风格的乐曲。
Soundful
2019年下半年,AI音乐创作平台Soundful在美国创立。[插图]用户不需要具备任何音乐制作经验,只需简单地选择音乐种类和模板,就能够在几秒钟内生成自己想要的音乐。如图7.11所示,在Soundful的主界面中,用户可以左右滑动来选择音乐的基础模板。在选定模板后,用户就会进入音乐生成界面,只需要决定音乐的长度、节拍和大小调就可立刻进行创作。
和其他音乐生成AI相比,Soundful有两个优点。一个是音乐的免版权化,用户可以将Soundful生成的音乐用于任何商业目的,包括优兔视频、App制作和NFT等。另一个是模板自定义,用户只要购买了Soundful的专业版本,就可以自定义一套完整的音乐模板。如果用户需要大规模制作类似风格的音乐,这种模板将有效提高音乐制作的效率。
图7.11 Soundful的主界面
EcrettMusic
EcrettMusic是一款来自日本东京的音乐生成AI软件,它旨在为视频创作者提供一种简单高效的背景音乐制作工具。Ecrett-Music的创立者大湖楠木表示:“我想开发一个工具,让每个人都能直观地创作音乐。”
EcrettMusic的创作界面如7.12所示。在进入音乐生成的主界面后,用户将需要在场景(SCENE)、情绪(MOOD)和风格(GENRE)这三组关键词中选择自己所需要的。完成关键词组合后,用户就可以点击“创作音乐”(CREATE MUSIC)自动生成音乐。请注意,并不是任意三种关键词的组合都能够生成音乐,比如,在选择了“冒险”(Adventure)风格和“幻想”(Fantasy)情绪后,用户就不能选择“八比特”(8-bit)作为音乐风格,而是必须选择“科技音乐”(Techno)或其他风格。
图7.12 EcrettMusic的音乐生成界面
和其他的音乐生成AI相比,EcrettMusic在对音乐的二次使用上有着许多限制:用户虽然可以将音乐商用,但不能在音乐中添加歌词或对音乐进行混音;对生成的音乐,用户不能二次下载。此外,EcrettMusic官网明确表示,只有网速达到5Mbps(5兆比特每秒)的用户才能进行音乐生成,否则网页将会无法响应。
Soundraw
和EcrettMusic类似,Soundraw是由大湖楠木和山口慎太郎、罗梅拉·马丁内斯(Romera Martinez)等人于2020年在日本东京研发的另一个音乐生成AI平台。由于有一位创始人相同,Soundraw的界面和EcrettMusic没有太大的区别。不过,为了方便使用,Soundraw对使用流程进行了大幅度简化。
在进入主创作界面后,用户将见到和EcrettMusic中差不多的三组词条。用户只需点击一个词条,即可让Soundraw生成15条对应风格或场景的音乐,其中每一条均具有随机的其他元素。对于用户感兴趣的音乐,Soundraw还提供了简易的音乐编辑功能。如图7.13所示,用户可以在界面中修改节拍、乐器和音调等元素。
图7.13 Soundraw的音乐编辑界面
Soundraw的使用体验和EcrettMusic相比显然更上一层楼。首先,Soundraw没有了网速的限制,允许更多用户进行音乐创作。其次,Soundraw对音乐的商业用途限制也做出改进,用户只要承诺不在程序或游戏的主界面使用Soundraw生成的音乐,就可以将音乐用作商业目的。如果要在主界面使用,用户仍然需要对音乐进行一定程度的编辑。
视频AIGC的应用
和传统的文字与图片相比,视频在信息传播的过程中扮演着越发重要的角色。视频是最直观的信息媒介,能够带来连续的视听体验,在互联网的信息传播中,视频甚至直播越来越多。但制作视频的难度也比拍摄图片要大很多。因此,使用AI来生成视频就成为一个不错的选择。本节将会介绍几种视频生成AI。
Pictory
来自美国的Pictory团队研发了一款同名的SaaS(Software as a Service,软件即服务)软件。它旨在智能地将文章、文案或其他文字内容转化为高质量的视频,并上传到优兔等社交媒体上分享。在视频生成AI的帮助下,视频转化的过程被压缩为简单的几个步骤。
(1)编辑文本摘要
在使用Pictory生成视频之前,用户需要手动编写顺畅的文本。随后,Pictory会尝试总结用户提供的文本内容,选择关键要素作为视频的基础。
(2)编辑情节提要
在完成了脚本的创作后,Pictory的AI就会和它庞大的媒体库中的图像和视频进行配对,自动生成对应的视频。当然,用户也可以添加和删除场景,甚至上传自己的图片作为背景。
(3)添加音乐和声音
在完成了视频的基本框架后,用户可以选择让Pictory为视频添加音乐和画外音,也可以使用用户录制的声音,或者选择系统提供的声音。
(4)添加水印
盗视频的现象在网络上层出不穷。为了尽可能地保护知识产权,Pictory允许用户在视频中添加水印。用户可以使用Pictory提供的水印素材,或是上传自己专属的标识。
(5)剪辑和下载
此时,用户的大作已经基本完成。用户还可以根据需要对视频进行调整,然后就可以下载MP4文件。
除了提供文本转化视频服务外,Pictory还提供许多额外的服务,如通过文字输入修改视频、自动生成视频标题和压缩长视频等。
DeepBrain AI
由明芒科技研发的DeepBrain AI是一款来自韩国的一体化AI软件。它和LG、三星等韩国的知名企业合作,推出了视频生成AI、智能客服等多项与AI有关的服务。它主要的业务方向是用虚拟的人物形象模拟新闻报道。
如图7.14所示,DeepBrain AI生成视频的界面和常用的PPT区别不大。在界面左侧的是视频的生成区,用户可以输入文字或上传图片作为生成的素材,屏幕右侧的是对视频的设置,包括文本、AI形象和背景等。DeepBrain AI支持超过80种语言。它的一大特色是拥有多种虚拟人物形象,甚至包括一些现实中的名人,如美国电影明星霍威·曼德尔、现任韩国总统尹锡悦、韩国足球运动员孙兴慜等。
图7.14 DeepBrain AI的编辑界面
InVideo
来自美国的视频生成软件InVideo拥有强大而丰富的模板机制,这让它成为一款独一无二的视频生成AI软件。通过提供许多免版权模板,视频的制作者可以非常快速地生成他们想要的视频。和其他的视频生成AI相比,InVideo有着以下几个特点。
(1)模板素材库
InVideo配备了一个庞大的预置模板库,用于快速生成引人入胜的内容。此外,它还提供专门用于Snapchat(色拉布)、Instagram(照片墙)和脸书等社交媒体的模板。
(2)免版权的动画模板
目前,许多视频生成AI都提供免费的图片和音乐素材,而提供免版权动画素材的寥寥无几。InVideo提供大量可定制的动画模板,让视频生成变得简单。
(3)方便转发
InVideo在分享功能上可谓省时省力。在编辑完视频后,只需点击几下,用户的视频就会立刻出现在各大社交媒体上。
许多用户担心,使用视频生成AI是否会存在素材泄露的问题。InVideo公开表示,它有完备的数据保护机制。首先,InVideo会通过身份验证、加密技术和访问控制等一系列措施,确保只有授权用户才能访问系统。其次,InVideo也在不断迭代其数据安全系统,以消除数据安全的潜在威胁。InVideo还与亚马逊的网络安全部门保持密切合作,以确保用户数据始终安全。