AIGC的常见应用 - 林清扬的博客

内容纲要

AIGC技术的落地，自然需要各种垂直化、个性化的工具发挥作用。这些工具可以在不同行业的工业流水线上部署，根据算法大量制作所需的产品。在第五章中，我们已经介绍了许多类ChatGPT的文本生成AI，本节将从图像生成AI、音频生成AI和视频生成AI三个方面，简单介绍目前AIGC技术的应用。

图像AIGC的多样

由于图像生成AI的可操作性极高，毫无绘画经验的人现在也可以根据自己的想法进行艺术创作。图7.3列举了目前AIGC产业中的多种图像生成AI产品。显然，图像生成AI将会改变未来人类进行艺术创作的方式。

现在的图像生成AI软件，往往只需要数分钟就可以生成人像、风景、抽象画，甚至可以模仿著名艺术家的风格作画。接下来，我们将介绍几款市面上常见的图像生成AI软件。

Fotor

Fotor是一款由成都恒图科技有限责任公司（简称“恒图科技”，创立于2009年）开发的图片编辑和设计软件。在公司创业伊始，Fotor只是一个照片编辑和设计软件，仅能提供基本的图片编辑功能，如裁剪、调整大小和基本的颜色校正等。经过多年努力，Fotor为用户提供了更多新颖的功能。2015年，Fotor发布了在线的图片编辑平台，用户可以更加便捷地享受服务。目前，Fotor已经覆盖了PC（个人电脑）、安卓和苹果三大主流平台，拥有Fotor网页版、Fotor iPhone版、Fotor安卓版、Fotor桌面版共计4个版本。2022年，Fotor宣布推出了自己的图片生成AI。它主要包含三大功能：第一个是使用AI自动生成图像，第二个是使用AI自动移除图片背景，第三个是通过AI强化图片的光影效果。
根据图7.4可知，Fotor的图片生成界面可分为多个区域。用户可以在左侧选择通过输入文字或上传已有图片来创作。用户可以输入一串连续的词组，决定生成图片的内容，随后还可以使用右侧的工具栏进行进一步调整，包括图片数量、大小、比例、光影效果和风格等。目前，Fotor已经拥有包括概念艺术、日本动漫、20世纪90年代动画、油画、浮世绘在内的共12种绘画风格。

图7.4 Fotor界面
如图7.5所示，我们要求Fotor创建“宇航员坐在椅子上”的图像。总体看上去还不错，但细节仍然有待加强。例如宇航员胳膊上的国旗图案非常模糊，右上角的太阳也只生成出了半个。

图7.5 Fotor生成的图片

AI自动移除背景和AI强化图片效果则是AI的两个实际应用。如图7.6和图7.7所示，我们输入“西湖大学的礼堂”，Fotor在几秒钟内就生成出了对应的效果图。虽然生成的速度非常快，但在图7.6中，背景并没有被完全移除，礼堂的一部分反而被移除了。光影效果的变换请参考图7.7，左侧为原始效果，右侧为增强效果。Fotor虽然增强了图片的光影效果，却也让图片的细节变得更为模糊。

图7.6 Fotor自动移除背景

图7.7 Fotor增强图片的光影效果

Fotor的最大亮点是其艺术功能的一体化。用户如果对AI创建出的图片不够满意，还可以立刻使用公司网站上提供的其他艺术编辑功能，对图片进行手动编辑，直到满足需求为止。

Hotpot.ai

来自美国的Hotpot.ai是一家新成立的软件公司。它以AI为驱动力，帮助专业或业余的设计师激发创造力，从而创作出富有想象力的作品。Hotpot.ai旨在通过易于操作的界面让任何人都可以创建具有专业水平的图片，最终创造一个公平的竞争环境。

自Hotpot.ai问世以来，它的功能已经从单纯的图片生成AI扩展到超过10种功能，包括生成大头照、移除照片内物体、老照片上色、光影增强等。除了图片生成AI外，Hotpot.ai也进行了业务拓展，推出了AI游戏和文本生成AI服务。

Hotpot.ai的用户界面包含三行。用户需要在最上面的空格中输入图片应当包含的元素，在第二行选择图片风格。第三行的“变化”按钮允许AI对输出的图片进行一些微调。在用户决定了图片生成数量后，它就可以进行图片生成了。

Hotpot.ai的优点在于多种AI工具的联动。你如果不知道要生成怎样的图片，就可以点击输入栏下方的“向AI寻求点子”，以此和Hotpot.ai的文本生成AI互动。

然而，Hotpot.ai也不是完美的，它存在两个致命的弱点。首先，它不能保证生成的每一张图片都是独一无二的。因此，如果希望将图片用于商业目的，那么用户就必须支付版权费。其次，Hotpot.ai的AI并不会完全按照输入的指令输出，甚至会生成和输入指令完全不同的图片，尤其是在用户打开“变化”按钮后。

NightCafe

2019年11月，来自澳大利亚悉尼的安格斯·罗素(Anges Russell)创建了名为“夜间咖啡馆的创造者”(Night Cafe Creator)的网络平台。起初，安格斯希望创建一个使用神经网络的转账程序。后来，安格斯发现了图片生成AI的蓝海，于是改变了开发的方向。2021年年中，安格斯注意到了一种名为VQGAN+CLIP的新模型。这种模型在生成油画风格的图片方面有着极佳的效果。安格斯团队基于这款新模型迅速研发出了NightCafe图片生成器，它很快成为最受欢迎的图片生成软件之一。

图7.8展示了NightCafe的主界面。和其他软件相比，NightCafe的界面相当简洁。用户只需要输入相应的词组，随后选择风格，就能够自动生成图片。NightCafe有两个优点。第一，它提供一种独一无二的艺术风格，即夜间咖啡馆风格。这种风格来自著名画家凡·高的画作《夜间咖啡馆》。如图7.9所示，我使用这种风格生成了一张名为《站在城堡前的人》的画。第二，NightCafe提供多种不同的算法，包括稳定扩散模型(Stable Diffusion Model)、DALL-E2模型、CLIP引导扩散模型(CLIP Guided Diffusion Models)和VQGAN+CLIP模型，共4种模型。用户可以通过使用不同的算法来比较算法对生成图片的影响。

图7.8 NightCafe的图片生成界面

图7.9 《站在城堡前的人》

除了图片生成功能外，安格斯团队还开发了社交平台。用户创建的所有图片都会自动上传到网站的画廊上，供网友鉴赏和点评。网站还允许用户添加好友或是建立聊天室，以便用户更好地交流艺术创意。

DeepAI

来自美国的DeepAI是一款一体化的图片生成AI软件。和同类型软件相比，DeepAI不仅能够生成图像，还可以生成文本及图片转换，为用户提供流水线式操作。DeepAI的图片生成步骤和同类型图片生成AI软件大致相同。它提供多达29种图像生成风格，但其中有很多需要购买会员后才能使用。DeepAI允许用户将生成的图片用于商业目的，甚至允许用户将图片制作成NFT（Non-Fungible Token，非同质化通证）进行出售。

然而，DeepAI有时不能准确理解用户指令，尤其是它的图片转换功能。如图7.10所示，我们输入命令要求DeepAI将图片翻转，然而DeepAI却将图片转为了黑白照片。

图7.10 DeepAI未能准确理解输入指令的示例

音频AIGC的流行

目前，AI越来越多地应用于音乐领域。在可见的未来中，它将影响音乐领域的各个方面，包括音乐创作、音效制作和音乐流媒体等。市场上的一些AI软件可以生成不同作曲家风格的作品，还有一些工具使用机器学习算法来生成全新的歌曲和声音。这些工具基本上都是开源的，这意味着任何人都可以访问并改进现有技术。接下来，我们将介绍几款市面上常见的音频生成AI软件。

AIVA

AIVA是由皮埃尔·巴罗(Pierre Barreau)于2016年在卢森堡成立的一家AI音乐制作公司。该公司专注于使用AI技术为电影、商业广告、游戏和预告片等制作配乐。[插图]AIVA是该公司采用深度学习技术打造的一款AI音乐制作软件，提供包括电子、摇滚、探戈甚至中国风在内的11种音乐风格。

使用AIVA创作分为两个步骤：音乐生成和音乐修改。AIVA提供数十个不同类型的音乐模板，用户可以在编辑界面进行试听。在选择好想要的音乐风格后，用户只需确定音乐的主和弦，AI就会自动生成符合要求的音乐片段。如果想要对生成的音乐进行微调，用户可以使用AIVA自带的音乐修改器对节拍、乐器、和弦或伴奏进行调整。

目前，AIVA生成的音乐在全世界范围内具有一定的知名度。在2017年卢森堡的国庆庆典上，卢森堡交响乐团就演奏了由AIVA谱写的乐曲《让它成真》(Let’s Make It Happen)。2018年，AIVA又以中国神话故事《女娲补天》为主题发布了专辑《艾娲》，其中包括8首具有中国风格的乐曲。

Soundful

2019年下半年，AI音乐创作平台Soundful在美国创立。[插图]用户不需要具备任何音乐制作经验，只需简单地选择音乐种类和模板，就能够在几秒钟内生成自己想要的音乐。如图7.11所示，在Soundful的主界面中，用户可以左右滑动来选择音乐的基础模板。在选定模板后，用户就会进入音乐生成界面，只需要决定音乐的长度、节拍和大小调就可立刻进行创作。

和其他音乐生成AI相比，Soundful有两个优点。一个是音乐的免版权化，用户可以将Soundful生成的音乐用于任何商业目的，包括优兔视频、App制作和NFT等。另一个是模板自定义，用户只要购买了Soundful的专业版本，就可以自定义一套完整的音乐模板。如果用户需要大规模制作类似风格的音乐，这种模板将有效提高音乐制作的效率。

图7.11 Soundful的主界面

EcrettMusic

EcrettMusic是一款来自日本东京的音乐生成AI软件，它旨在为视频创作者提供一种简单高效的背景音乐制作工具。Ecrett-Music的创立者大湖楠木表示：“我想开发一个工具，让每个人都能直观地创作音乐。”

EcrettMusic的创作界面如7.12所示。在进入音乐生成的主界面后，用户将需要在场景(SCENE)、情绪(MOOD)和风格(GENRE)这三组关键词中选择自己所需要的。完成关键词组合后，用户就可以点击“创作音乐”(CREATE MUSIC)自动生成音乐。请注意，并不是任意三种关键词的组合都能够生成音乐，比如，在选择了“冒险”(Adventure)风格和“幻想”(Fantasy)情绪后，用户就不能选择“八比特”(8-bit)作为音乐风格，而是必须选择“科技音乐”(Techno)或其他风格。

图7.12 EcrettMusic的音乐生成界面
和其他的音乐生成AI相比，EcrettMusic在对音乐的二次使用上有着许多限制：用户虽然可以将音乐商用，但不能在音乐中添加歌词或对音乐进行混音；对生成的音乐，用户不能二次下载。此外，EcrettMusic官网明确表示，只有网速达到5Mbps（5兆比特每秒）的用户才能进行音乐生成，否则网页将会无法响应。

Soundraw

和EcrettMusic类似，Soundraw是由大湖楠木和山口慎太郎、罗梅拉·马丁内斯(Romera Martinez)等人于2020年在日本东京研发的另一个音乐生成AI平台。由于有一位创始人相同，Soundraw的界面和EcrettMusic没有太大的区别。不过，为了方便使用，Soundraw对使用流程进行了大幅度简化。

在进入主创作界面后，用户将见到和EcrettMusic中差不多的三组词条。用户只需点击一个词条，即可让Soundraw生成15条对应风格或场景的音乐，其中每一条均具有随机的其他元素。对于用户感兴趣的音乐，Soundraw还提供了简易的音乐编辑功能。如图7.13所示，用户可以在界面中修改节拍、乐器和音调等元素。

图7.13 Soundraw的音乐编辑界面

Soundraw的使用体验和EcrettMusic相比显然更上一层楼。首先，Soundraw没有了网速的限制，允许更多用户进行音乐创作。其次，Soundraw对音乐的商业用途限制也做出改进，用户只要承诺不在程序或游戏的主界面使用Soundraw生成的音乐，就可以将音乐用作商业目的。如果要在主界面使用，用户仍然需要对音乐进行一定程度的编辑。

视频AIGC的应用

和传统的文字与图片相比，视频在信息传播的过程中扮演着越发重要的角色。视频是最直观的信息媒介，能够带来连续的视听体验，在互联网的信息传播中，视频甚至直播越来越多。但制作视频的难度也比拍摄图片要大很多。因此，使用AI来生成视频就成为一个不错的选择。本节将会介绍几种视频生成AI。

Pictory

来自美国的Pictory团队研发了一款同名的SaaS（Software as a Service，软件即服务）软件。它旨在智能地将文章、文案或其他文字内容转化为高质量的视频，并上传到优兔等社交媒体上分享。在视频生成AI的帮助下，视频转化的过程被压缩为简单的几个步骤。

(1)编辑文本摘要
在使用Pictory生成视频之前，用户需要手动编写顺畅的文本。随后，Pictory会尝试总结用户提供的文本内容，选择关键要素作为视频的基础。

(2)编辑情节提要
在完成了脚本的创作后，Pictory的AI就会和它庞大的媒体库中的图像和视频进行配对，自动生成对应的视频。当然，用户也可以添加和删除场景，甚至上传自己的图片作为背景。

(3)添加音乐和声音
在完成了视频的基本框架后，用户可以选择让Pictory为视频添加音乐和画外音，也可以使用用户录制的声音，或者选择系统提供的声音。

(4)添加水印
盗视频的现象在网络上层出不穷。为了尽可能地保护知识产权，Pictory允许用户在视频中添加水印。用户可以使用Pictory提供的水印素材，或是上传自己专属的标识。

(5)剪辑和下载
此时，用户的大作已经基本完成。用户还可以根据需要对视频进行调整，然后就可以下载MP4文件。

除了提供文本转化视频服务外，Pictory还提供许多额外的服务，如通过文字输入修改视频、自动生成视频标题和压缩长视频等。

DeepBrain AI

由明芒科技研发的DeepBrain AI是一款来自韩国的一体化AI软件。它和LG、三星等韩国的知名企业合作，推出了视频生成AI、智能客服等多项与AI有关的服务。它主要的业务方向是用虚拟的人物形象模拟新闻报道。

如图7.14所示，DeepBrain AI生成视频的界面和常用的PPT区别不大。在界面左侧的是视频的生成区，用户可以输入文字或上传图片作为生成的素材，屏幕右侧的是对视频的设置，包括文本、AI形象和背景等。DeepBrain AI支持超过80种语言。它的一大特色是拥有多种虚拟人物形象，甚至包括一些现实中的名人，如美国电影明星霍威·曼德尔、现任韩国总统尹锡悦、韩国足球运动员孙兴慜等。

图7.14 DeepBrain AI的编辑界面

InVideo

来自美国的视频生成软件InVideo拥有强大而丰富的模板机制，这让它成为一款独一无二的视频生成AI软件。通过提供许多免版权模板，视频的制作者可以非常快速地生成他们想要的视频。和其他的视频生成AI相比，InVideo有着以下几个特点。

(1)模板素材库
InVideo配备了一个庞大的预置模板库，用于快速生成引人入胜的内容。此外，它还提供专门用于Snapchat（色拉布）、Instagram（照片墙）和脸书等社交媒体的模板。

(2)免版权的动画模板
目前，许多视频生成AI都提供免费的图片和音乐素材，而提供免版权动画素材的寥寥无几。InVideo提供大量可定制的动画模板，让视频生成变得简单。

(3)方便转发
InVideo在分享功能上可谓省时省力。在编辑完视频后，只需点击几下，用户的视频就会立刻出现在各大社交媒体上。

许多用户担心，使用视频生成AI是否会存在素材泄露的问题。InVideo公开表示，它有完备的数据保护机制。首先，InVideo会通过身份验证、加密技术和访问控制等一系列措施，确保只有授权用户才能访问系统。其次，InVideo也在不断迭代其数据安全系统，以消除数据安全的潜在威胁。InVideo还与亚马逊的网络安全部门保持密切合作，以确保用户数据始终安全。