前言
到目前为止,你肯定体验过一些 AI 产品了,但是你知道吗?如果把 AI 产品比作冰山,作为一个用户所感受到的部分仅仅是浮在水面上的十分之一,另外隐藏在水底的十分之九才是 AI 产品经理的重头戏。
我们从全局来观察一下这座冰山的水上、水下部分。
每一个 AI 产品都像图中一样有四层结构。
-
第一层:数据、算力、算法层。
-
第二层:模型层。
-
第三层:应用层。
-
第四层:用户层。
学完这节课,你会对这四层结构有整体理解,未来在构建一款产品时,就不仅能设计它长成什么样,还能从内部控制它的外在表现,完整地定义你的产品。
为了便于理解,我们用一个人的成长过程做类比,来说明这四层对于 AI 产品的意义。
第一层:数据、算力、算法层
这一层是 AI 产品的基座,相当于人在成长过程中所接受的教育体系,包括丰富的学习资源、教学硬件和优秀的老师,这三者分别对应数据、算力、和算法。
这一层我们以理论学习为主,帮助你理解 AI 的技术边界在哪里。在未来的工作中,你肯定会遇到某些产品功能难以实现的情况,这些知识能让你迅速判断出这是因为 AI 技术本身的问题,还是因为我们不会使用 AI 的问题。
数据
这个概念很好理解。数据按照内容分两类,一类是用于建设 AI 基础能力的海量数据,就像学校的图书馆资源,对所有人来说都是一样的; 一类是个性化数据,就像你在图书馆之外,总有自己独特的学习资料,比如学长的学习笔记,你感兴趣的课外读物。
第一类数据由大模型厂商决定,需要专门的数据供应方和大模型厂商来做,和普通的 AI 产品经理关系不大。但第二类数据就是 AI 产品经理要来“精挑细选”了。作为 AI 产品经理,我们需要了解三个方向的问题。
-
判断什么样的数据是优质数据?
-
如何获取这些优质数据?
-
这些数据对 AI 产品会产生哪些影响?
别急,这些内容在后续都会讲到,这一篇仅仅做知识踩点。
算力
这是支撑 AI 产品的硬件环境,它就像是一个学校里的教学设备、教室、实验室等等。对于 AI 来说,算力就是计算时使用的芯片。当然,你不需要了解芯片的制作工艺、使用效率。但作为 AI 产品经理,你需要了解三点。
-
如何评估一个 AI 产品对算力的需求?
-
使用这些算力要花多少钱?
-
使用哪些方法可以降低成本?
这些能力能帮助你从 ROI 角度评估产品的商业可行性。比如我们现在经常使用的免费 AI 搜索,如果不做任何成本调优,一次搜索都要花掉几块钱。那假如一天发起十万次搜索,仅仅算力成本就要消耗几十万块。想要长期发展,就必须在商业收益和成本上做好规划。
算法
如果说数据和算力都有一个具象的表现,那么算法就是 AI 背后最抽象的计算机原理。好比学校里的老师,我们并不是看这个老师长得高矮胖瘦,而是要看 Ta 的教学方法,这个方法相比教学设备、图书资源是很抽象的,也是比较难的部分。
对于 AI 产品经理来说,了解算法有两大好处。一是能帮助我们理解技术边界,鉴定什么问题 AI 能解决,什么不能解决。二是能帮我们与算法工程师、开发工程师更好地合作,换个黑话的说法就是“避免被他们忽悠了”。
第二层:模型层
有了上一层的学校图书馆、教学场地和优秀老师,接下来就是花时间培育出优秀的“学生”了。
模型层细分可以分为三层,分别对应着不同水平的学生,我们由下至上来看。
-
Level 0:基座大模型,相当于本科生,具备通用能力。
-
Level 1:垂直领域模型,相当于在本科毕业后继续攻读的研究生,具备一定专业领域的知识。
-
Level 2:场景模型,相当于本科或研究生毕业后,经过工作经验积累,或者公司的专项培训,具备某些业务专家的能力。
在一个 AI 产品中,你可以仅选择其中某个层级的模型,也可以根据需要选择多个模型。就像一个公司既有本科生,又会有研究生,也会有业务专家。
作为 AI 产品经理,我们就需要像公司的 HR 一样,起码具备两项能力。
-
如何挑选合适的员工,也就是为产品场景找到合适的基座大模型或者领域模型。
-
如何进行公司内部的专项培训,也就是训练出一个场景模型,这里需要理解模型微调原理。
好了,我们总结下第一层和第二层需要掌握的知识点,以及掌握这些知识点后你可以具备的能力。这部分的细节我们会在后续文章中详细展开。
当你找到合适的“人员”,接下来就是要调动这些资源动手做东西啦,也就到了产品的应用层。
第三层:应用层
这里的应用层更像是产品拆开包装后,你所看到的各个元器件之间是怎么组织、协调的,也是产品经理和应用开发者工作最繁重的地方。
如果说前面的两层主要是理论学习,那么应用层拼的就是实战学习。我会在后续的文章中以亲身实践案例来讲述。在这里,你需要掌握两大核心技术,提示词工程和 Agent 设计。
我们在这里先来阐述概念。
提示词工程
这里的提示词工程并非你常听到的和 ChatGPT 对话的提示词撰写技巧,而是面向产品经理的提示词工程技术。我用一个比喻来说明二者的不同。
-
如果你是 ChatGPT 的用户,写提示词就像玩盲盒。你对结果有所期待,但不要求确定。
-
如果你是 AI 产品经理,写提示词就像打靶。你是首先有一个确定的目标,再开始写提示词,直到提示词能打中靶心为止。
比如在客服场景中,我们需要设计提示词,让 AI 判断对话中,用户的情绪是正面、中性还是负面。
-
当用户输入“今天别给我送快递,我不方便收货,如果可以明天送”时,输出立场为中性。
-
当用户输入“包包内部结构不好,找东西不方便”时,输出立场为“负面”。
在这两个例子中,都有“不方便”这个词,但输出的立场却不一样。那么我们在写提示词的时候,就必须做多次试验,保证相似的场景能有严格的输出,像打靶一样每次都能打到靶心。
为了达到这个目标,你的提示词可能是这样的:
你看,这个提示词里貌似有很多“废话”,但对于一个模型来说是必要的。这个例子里的提示词工程用专业名词来说叫 Hard prompting(硬提示)工程,就是把提示词当做输入项直接给到模型,输出期待的答案。
既然有 Hard prompting, 那就会有 Soft prompting(软提示),它还有另外一个名字,叫 Prompt tuning,提示词微调工程。简单来说,就是用微调模型的方法让模型学习到某种模式,模型学会之后,就不用再像 Hard prompting 那样输入很长的提示词了。
比如在上面的例子中我们会搭配很多组这样的数据对来微调模型。
在模型微调结束后, 我们就只需要以下几句话就可以得到我们期待的结果,这个长度就比 Hard prompting 的“废话”少多了。
打个比方吧,Hard prompting 就好像你对一个刚入职的新同事给他安排任务,需要很详细地告诉 ta 要做什么,为什么要做,如何做,具体步骤,而且要给给他举例说明。而 Soft prompting 就像是培养一个熟练工,当新同事适应一段时间后,你不再需要那么详细,可能只需要一句话,他就能体会你的意思。这也意味着你对他成功地完成了 Soft prompting 工程。
回到产品本身,就是在产品实验阶段通过 Hard prompting 进行验证,上线得到真实数据验证成功后,通过 Soft prompting 微调那些在模型里形成的程序性记忆。我们在后续的实战案例 11-13 节中会详细讲述。
我们把上述提示词工程总结为一个提示词的生命周期,就像下面这张图展示的内容。
Agent 设计
如果说提示词工程是用来影响模型的思考,那么 Agent 则在思考的基础之上增加了行动能力。
仅使用提示词工程的 AI 产品只会聊天,而结合 Agent 设计的 AI 产品就既能聊天,还能做事情,不会沦为思想上的巨人,行动上的矮子。
Agent 翻译为中文叫智能体,直译过来叫“代理”,早在 1986 年,图灵奖得主 Marvin Minsky 在《The Society of Mind》一书中就提到了 Agent 的概念。那为什么现在又重新被推上历史舞台了呢?
因为 Agent 实际上有五个递进的等级,而当下正处于从第二级向第三级跨越的阶段。
我们依次说下这五个等级。
- 第一级:基于规则,能使用工具的智能体。
- 第二级:基于模仿学习、强化学习,能使用工具且能做决策、推理的智能体。
- 第三级:基于大语言模型,在第二级能力之上,增加了记忆、反思能力。
- 第四级:基于大语言模型,在第三级能力之上,增加了自主学习能力。
- 第五级:基于大语言模型,在第四级能力之上,增加了情感、智能体的社会协同能力。
在这一轮,为了让 Agent 能跨向第三级,解锁更多使用场景,AI 产品经理们需要为 Agent 构建出四个能力。
-
工具使用能力
-
记忆能力
-
反思能力
-
规划决策能力
我举例来说明这几项能力的定义。比如我写这节课这天正好是父亲节,我想做一张父亲节卡片。
-
我告诉 ChatGPT:“画一张父亲节主题的卡片”。Ta 会调用 AI 画图工具 DALL.E-3 绘出一张卡片,这是工具使用能力。
-
可我发现这张卡片上的主题词是英文字母,这可不行,我爸看不懂英语,于是我告诉 Ta“把卡片上的英文换成中文”,ChatGPT 会理解这句话,并再次调用 DALL.E-3 绘出一张卡片。这时你发现 ChatGPT 其实记住了我这里说的“卡片”指的就是第一次对话生成的卡片,这就是记忆能力。
-
然后,我再问 ChatGPT “如果你是一位 60 岁的男性,你会喜欢这样的卡片吗?”,好了,Ta 就会读取这张照片,并以 60 岁男性的角色评判这张图片,这就具备了反思能力。
-
最后,我完成了父亲节卡片。下次如果遇到母亲节,我问 ChatGPT“如何做一张母亲节的卡片”,那么 ChatGPT 就会自己建议:第一步用 DALL.E 画一张照片,第二步以母亲的身份来评价这张照片,直到满意为止。这就具备了规划能力。
当然,实际场景中的 Agent 会比例子中的复杂,我们也会采用多种方式来让 Agent 具备这四大能力,在稍后的文章中,我会用案例来讲述。
通过应用层的这两个核心技术,我们就可以把产品的核心功能构建起来。接下来我们的产品就要包装一下,正式向用户见面了。我们来到了 AI 产品的第四层。
第四层:用户层
这一层是很多 AI 产品经理比较困惑的地方,我之前在做互联网产品的时候,产品经理的一大能力就是画原型图,而现在的 AI 产品,似乎大部分是一个用户对话界面,AI 产品经理画原型图再也不用画那种长达十几页的用户跳转旅程。
然而这种对话界面绝对不是、也不应该成为唯一的形态。因为人类的信息有 80% 是从视觉中获得的,而这 80% 的视觉绝不是只用来看文字的。我在这里举个以画布作为用户层的例子供大家参考。
这是我在 globe.engineer 上看到的交互方式。
想象一下,你和一位同事在白板前讨论问题,而这位同事就是一个智能体。
-
首先你说出了一个想法,“咱们要调研一下关于具身机器人的东东”。
-
然后 Ta 在画布迅速画出一个脑图。
-
可是你发现,这些脑图用一个维恩图来表示会更好,因为其中有些项目是有重叠、关联作用的,维恩图更适合表达这种关系,于是你告诉“同事”,“我觉得用维恩图表达更好”。
-
于是 Ta 迅速改成了维恩图的方式。
-
你们两个如此反复,最终通过这种互动方式做出来一个调研思路。
-
最后 Agent 根据这个思路通过搜索工具总结出一份完整的报告。
你瞧,这种方式就让人机交互变得更加自然,这也是这一轮 AI 给产品形态带来的革命性改变。也许你已经习惯了我们在 App 上点来点去,但仔细想想,在一个偌大的屏幕上,有时候可能你只关注某个角落里的一个按钮,这何尝不是一种视觉浪费呢?
当然,用户层的表现最终还是要根据用户的需求、使用场景、使用习惯来决定。我经常在想,在 AI 技术变革的时代,会不会出现像鼠标之于 PC 机,触摸屏之于智能手机那样跨时代的交互方式?尽管 GPT-4o 发布会对多模态 Demo 的展示很让人震撼,但从用户角度,似乎仍然在人机交互上有些隔阂。我们在 AI 技术浪潮下,一定会诞生全新的人机交互,但在此之前,不妨简单地让 AI 产品的 UX 遵循以下两个原则。
-
让用户的学习路径最短。
-
让效果呈现最直观。
总结
今天我们讲了 AI 产品有四层结构:数据、算力、算法层,模型层,应用层和用户层。你是不是对一个 AI 产品的全貌有个体系化的了解了呢?
在文章开头,我把这个四层结构比作一座冰山,因为首先我们希望 AI 产品像一座建筑物结实可靠。而在即将结束这节课的时候,我更愿意把 AI 产品比作你要塑造的生命体。
-
最底层(数据、算力、算法层)决定了生命体的气质:它是构建 AI 产品的基础,对底层的了解可以帮助我们确定技术边界,告诉我们什么样的产品功能可以用 AI 实现,什么样的功能需要产品侧降级,什么样的功能无法实现。
-
模型层是在构建生命体的专业素养:AI 产品经理需要懂得如何选用合适的基础模型,如何收集用于模型微调的优质数据集。
以上这两层我们会以理论学习为主。再往上的应用层和用户层是 AI 产品经理日常工作的主要内容,是我们需要通过大量实践才能掌握的技能。
-
应用层是培训生命体的实战技术:AI 产品经理需要掌握提示词工程和 Agent 设计两大核心技术。提示词工程是为了控制 AI 产品的输出,Agent 设计则是为了让 AI 产品具备思考和行动的能力。而这两项内容也会作为核心内容出现的 AI 产品的 PRD 文档中。
-
用户层是塑造生命体的外在形象:AI 产品经理则需要和 UX 设计师一起,尽可能地缩短用户学习路径,增强产品的效果呈现,来吸引用户克服原有的使用惯性,快速启用 AI 产品,让我们更快的促进用户与产品互动,让产品进入迭代飞轮。
希望你的 AI 产品最终能成为一个内外兼修的生命体,持续生长。与此同时,你也会成长为一位连接用户与 AI 技术的硬核 AI 产品经理。
接下来就随我一起进入 AI 产品的每一层来详细探索吧。
思考
在你见到的 AI 产品中,有没有想过按照今天讲的层级架构来拆解这些产品呢?大胆地猜想一下这个产品在每一层可能分别要做哪些工作呢? 如果你是产品经理,你会从哪一层入手来让这个产品变得更好呢?
要点
- AI产品的四层架构包括数据、算力、算法层、模型层、应用层和用户层。
- AI产品经理需要了解数据的优质性、获取方式以及对产品的影响,评估产品对算力的需求和成本,以及理解算法的技术边界和与工程师合作。
- AI产品经理需要具备挑选合适模型和进行内部培训的能力。
- 应用层需要掌握提示词工程和Agent设计两大核心技术。
- 提示词工程包括Hard prompting工程和Soft prompting,用于影响模型的思考和微调模型。
- Agent设计增加了AI产品的行动能力,需要具备工具使用能力、记忆能力、反思能力和规划决策能力。
- 用户层的表现形式可以根据用户需求和使用场景决定,AI产品的UX应遵循让用户学习路径最短和效果呈现最直观的原则。
补充
2个工具
白板的例子有意思,最近一直在借助这方面的工具(flowith,funblocks),整理资料,启发思考, AI 是一个得力的助手和顾问
产品经理的核心技能
产品经理的核心技能就是看到一个产品,就去思考这个产品如何更好使用,能够分层级拆解产品
我是产品经理,还是从应用层来入手这个产品更快。获得的正反馈也更高。
一看就是有丰富经验的产品经理,是的,应用层最能收获用户反馈。甚至一个产品界面,一个简单demo也是可以的。 最近的一个感想是:也许不需要用户写提示词的产品可能才是一个好产品。
自然语言交互为什么没有在APP上流行呢
LLM已经出来近两年了,以自然语言交互为什么没有在APP上流行呢,比如向美团之类的APP,为何没有在搜索框中植入AI搜索,比如我们人类说订个带浴缸的房间并且有泳池的酒店呢,AI就去帮我们搜索,但目前还是依赖于人去操作界面进行搜索呢?
- 大船不好掉头(比如影响面太广,内部竞争,算力,平衡商家与平台的利益),这些创新点我理解最开始会从小团队出来,就比如早以前的比价网,什么值得买这种,都是站在三方来做。
- 模型能力现在确实还无法应对复杂场景,大家再等等。
- 用户惯性切换也需要很长时间,想想,如果美团做了,你真的会放心吗?
- 算力成本与收入比较,想想美团如果出现这个功能,有多少人会因为美团的这个功能而来到美团订酒店呢,对于用户来说,大部分人核心看的还是哪家平台的酒店更划算。而因此搭上算力,且模型还不准确,有点赔了夫人又折兵的感觉。
- 个人隐私保护:要做个性化推荐,就必须收集并使用用户的隐私数据,包括经济条件,以往的酒店记录,个人喜好....很多涉及到超高敏感个人隐私,收集必须合法合理,稍微不注意,就是网信办处罚;
AI编程
之前针对 AI 编程做的调研(不会写代码真有点吃力),
虽然不是严格按照「用户层」「应用层」「模型层」「基础层」进行撰写,也分享出来给大家,有需要的朋友可能会用到:
https://d76trpqunj.feishu.cn/docx/Uc8YdxzayoaamsxkV2ycxVQynDb
AI口语,外教App
一,算法算例数据方面:
算法:语音识别算法准确性,NLP算法识别包括口语内容提供准确的反馈语音合成算法,如比如流畅度语音语调语速
算力:根据用户数量级以及用户使用频率确定算力的冗余
数据:考虑数据来源,数据规模,数据更新频率,数据质量
二,模型层
语言模型,比如语法,词汇,语义
根据用户水平自适应调整模型
记忆模型
三,应用层
提示词工程:学习引导,学习反馈如表达拓展,口语水平反馈
agent:以语言导师的形式帮助用户进行NLP交互,个性化学习建议交互(不确定agent设计是不是指这个)
四,用户层
分析用户使用场景,需求
分析用户增长趋势
分析用户留存评估产品价值
研究用户行为数据,分析偏好,制定优化方案
无论是算力算法还是模型的调优,再到用户需求体验层面都很重要,但是更快出效果的是应用层,因为先吸引到用户,有更好的体验,用户才会考虑产品价值,是否继续使用。这是我的理解,如果有不合理的地方欢迎讨论
产品经理在这部分是否也应该发挥作用?
四层结构中,虽然底层的算法和模型是工程师主导,但产品经理在这部分是否也应该发挥作用?毕竟大模型也面向技术用户,是否也需要产品经理去优化开发者体验和接口设计?在这些技术层面,产品经理的职责具体是什么呢?
没错,每一层的产品都有产品经理,但每一层产品经理发挥的作用有大有小。比如模型层的接口设计目前来说基本上是趋同于openAI的做法,而优化开发者体验的过程已经被各种开发框架做了,比如langchain,llamaindex,其实这里就会有一群专门做AI infra产品的产品经理,一般来说他们可能从开发出身,做这些事情更擅长。相比应用层来说,产品经理发挥的作用更大。 如果希望做AIinfra的产品,可以推荐剖析一些开发框架类的产品看看,除了langchain之外,还推荐AI crew等。