公众号/ ScienceAI(Philosophyai)
编译 | 白菜叶
企业的生成式AI模型有可能颠覆内容创作的世界,对营销、软件、设计、娱乐和人际交流产生重大影响。这些模型能够生成文本和图像:博客文章、程序代码、诗歌和艺术品。该软件使用复杂的机器学习模型,根据先前的单词序列预测下一个单词,或根据描述先前图像的单词预测下一张图像。公司需要了解这些工具的工作原理,以及它们如何增加价值。
【资料图】
大型语言和图像 AI 模型,有时称为生成 AI 或基础模型,为执行内容创建的企业和专业人士创造了一系列新机遇,包括:
1、自动内容生成:大型语言和图像 AI 模型可用于自动生成内容,例如文章、博客文章或社交媒体帖子。对于定期创建内容的企业和专业人士来说,这可能是一种宝贵的节省时间的工具。
2、提高内容质量:人工智能生成的内容可能比人类创建的内容质量更高,因为人工智能模型能够从大量数据中学习并识别人类不能察觉的关联模式。这可以产生更准确以及信息更丰富的内容。
3、增加内容多样性:AI 模型可以生成多种内容类型,包括文本、图像和视频。这可以帮助企业和专业人士创建更多样化、更有趣的内容,从而吸引更广泛的人群。
4、个性化内容:人工智能模型可以根据个人用户的喜好生成个性化内容。这可以帮助企业和专业人士创建目标受众更有可能感兴趣的内容,因此更有可能被阅读或分享。
这项技术在模仿人类创造性工作方面究竟有多熟练?好吧,举个例子,上面的斜体文字是 OpenAI 创建的「大型语言模型(LLM)」GPT-3 依据本文的第一句话而生成的。GPT-3 的文本反映了大多数 AI 生成内容的优点和缺点。
首先,它对输入的提示很敏感;在确定该句子之前,我们尝试了几种替代提示。第二,系统写得还算不错;没有语法错误,选词恰当。第三,它将受益于编辑;例如,我们通常不会以编号列表开头这样的文章。最后,它提出了我们没有想到的想法。例如,关于个性化内容的最后一点不是我们会考虑的。
总的来说,它很好地说明了这些人工智能模型对企业的潜在价值。它们有可能颠覆内容创作的世界,对营销、软件、设计、娱乐和人际交流产生重大影响。这不是人类长期以来梦想和恐惧的「通用人工智能」,但在不经意的观察者看来可能就是这样。
什么是生成式人工智能?
生成式人工智能已经可以做很多事情了。它能够生成文本和图像,涵盖博客文章、程序代码、诗歌和艺术品(甚至有争议地赢得比赛)。该软件使用复杂的机器学习模型,根据先前的单词序列预测下一个单词,或根据描述先前图像的单词预测下一张图像。
LLM 于 2017 年在 Google Brain 开始,最初用于在保留上下文的同时翻译单词。从那时起,大型语言和文本到图像模型在包括 Google(BERT 和 LaMDA)、Facebook(OPT-175B、BlenderBot)和 OpenAI (GPT-3 用于文本,DALL-E2 用于图像,Whisper 用于语音)在内的领先科技公司激增。Midjourney 等在线社区和 HuggingFace 等开源供应商也创建了生成模型。
这些模型主要局限于大型科技公司,因为训练它们需要大量数据和计算能力。例如,GPT-3 最初接受了 45 TB 数据的训练,并使用 1750 亿个参数或系数进行预测;GPT-3 的单次训练耗资 1200 万美元。中国的悟道 2.0 模型有 1.75 万亿个参数。大多数公司没有数据中心能力或云计算预算来从头开始训练自己的此类模型。
但是一旦生成模型经过训练,它就可以用更少的数据针对特定的内容领域进行「微调」。这导致了 BERT 的专门模型——用于生物医学内容(BioBERT)、法律内容(Legal-BERT)和法语文本(CamemBERT)——以及用于各种特定目的的 GPT-3。NVIDIA 的 BioNeMo 是一个框架,用于在超级计算规模上为生成化学、蛋白质组学和 DNA/RNA 训练、构建和部署大型语言模型。OpenAI 发现,只要 100 个特定领域数据的具体示例,就可以显着提高 GPT-3 输出的准确性和相关性。
要有效地使用生成式 AI,你仍然需要在流程的开始和结束时进行人工参与。
首先,人类必须在生成模型中输入提示才能让它创建内容。一般来说,创意提示会产生创意输出。「快速工程师」很可能成为一个成熟的职业,至少在下一代更智能的人工智能出现之前是这样。该领域已经产生了一本 82 页的 DALL-E 2 图像提示书,以及一个提示市场,人们可以在其中支付少量费用购买其他用户的提示。这些系统的大多数用户在获得预期结果之前需要尝试几种不同的提示。
The-DALL.E-2-Prompt-Book:https://dallery.gallery/the-dalle-2-prompt-book/
然后,一旦模型生成内容,就需要人工对其进行仔细评估和编辑。备选提示输出可以合并到一个文档中。图像生成可能需要大量操作。在 Midjourney 的帮助下赢得科罗拉多州「数字处理摄影」比赛的 Jason Allen 告诉记者,他花了 80 多个小时制作了 900 多个版本的艺术作品,并一遍又一遍地调整他的提示。然后,他使用 Adobe Photoshop 改进了结果,使用另一种 AI 工具提高了图像质量和清晰度,并在画布上打印了三幅作品。
生成式 AI 模型非常多样化。它们可以接收图像、较长的文本格式、电子邮件、社交媒体内容、录音、程序代码和结构化数据等内容。他们可以输出新内容、翻译、问题答案、情感分析、摘要,甚至视频。这些通用内容机器在商业中有许多潜在的应用。
营销应用
这些生成模型在许多业务功能中具有潜在价值,但营销应用程序可能是最常见的。例如,Jasper 是 GPT-3 的一个以营销为重点的版本,可以制作博客、社交媒体帖子、网络副本、销售电子邮件、广告和其他类型的面向客户的内容。它坚持认为它经常通过 A/B 测试来测试其输出,并且其内容针对搜索引擎放置进行了优化。Jasper 还根据客户的最佳输出微调 GPT-3 模型,Jasper 的高管表示,这已经带来了实质性的改进。Jasper 的大部分客户是个人和小型企业,但大公司中的一些团体也利用其功能。例如,在云计算公司 VMWare,作家使用 Jasper 来生成用于营销的原创内容,从电子邮件到产品活动再到社交媒体副本。产品主导增长总监 Rosa Lear 表示,Jasper 帮助公司提升了我们的内容战略,编剧们现在有时间进行更好的研究、构思和战略。
公共关系和社交媒体机构 Ruby Media Group 的所有者 Kris Ruby 现在正在使用生成模型生成的文本和图像。她表示,他们在最大化搜索引擎优化(SEO)和公关方面非常有效,可以为作家提供个性化宣传。她认为,这些新工具开辟了版权挑战的新领域,她帮助她的客户制定人工智能政策。当她使用这些工具时,她说,「AI 占 10%,我占 90%」,因为涉及的提示、编辑和迭代太多了。她认为这些工具可以让搜索引擎发现的写作更好、更完整,而图像生成工具可能会取代库存照片市场,并导致创造性工作的复兴。
DALL-E 2 和其他图像生成工具已经用于广告。例如,Heinz 使用一张番茄酱瓶的图片,上面贴有与 Heinz 相似的标签,以证明「这就是『番茄酱』在人工智能看来的样子」。当然,这仅意味着该模型是在相对大量的 Heinz 番茄酱瓶照片上进行训练的。Nestle 使用 Vermeer 画作的 AI 增强版来帮助销售其酸奶品牌之一。Stitch Fix 是一家已经使用 AI 向客户推荐特定服装的服装公司,它正在试验 DALL-E 2,以根据客户要求的颜色、面料和款式偏好创建服装可视化。Mattel 正在使用该技术为玩具设计和营销生成图像。
代码生成应用程序
特别是 GPT-3 也被证明是一种有效的计算机程序代码生成器。给定一个「片段」或小程序功能的描述,GPT-3 的 Codex 程序——专门为代码生成而训练——可以生成各种不同语言的代码。Microsoft 的 Github 也有一个用于代码生成的 GPT-3 版本,称为 CoPilot。最新版本的 Codex 现在可以识别错误并修复自己代码中的错误——甚至可以解释代码的作用——至少在某些时候是这样。Microsoft 明确表示的目标不是消灭人类程序员,而是让像 Codex 或 CoPilot 这样的工具与人类形成「配对程序员」,以提高他们的速度和效率。
基于 LLM 的代码生成的共识是它适用于这样的代码片段,尽管将它们集成到更大的程序中以及将程序集成到特定的技术环境中仍然需要人类的编程能力。Deloitte 在过去几个月对 Codex 进行了广泛的试验,发现它可以提高有经验的开发人员的生产力,并为没有经验的开发人员创造一些编程能力。
在 Deloitte 与 55 名开发人员进行的为期 6 周的为期 6 周的试点中,大多数用户将生成的代码的准确性评为 65% 或更高,其中大部分代码来自 Codex。总体而言,Deloitte 实验发现相关项目的代码开发速度提高了 20%。Deloitte 还使用 Codex 将代码从一种语言翻译成另一种语言。
该公司的结论是,在可预见的未来,它仍然需要专业的开发人员,但生产力的提高可能需要更少的人。与其他类型的生成式 AI 工具一样,他们发现提示越好,输出代码就越好。
会话应用程序
LLM 越来越多地被用于会话人工智能或聊天机器人的核心。与当前的对话技术相比,它们可能会提供更高层次的对话理解和情境感知。例如,Facebook 的 BlenderBot 专为对话而设计,可以在保持上下文的同时与人类进行长时间对话。Google 的 BERT 用于理解搜索查询,也是该公司 DialogFlow 聊天机器人引擎的一个组件。Google 的 LaMBA,另一个 LLM,也是为对话而设计的,与它的对话让公司的一位工程师相信它是一个有感知力的存在——这是一个令人印象深刻的壮举,因为它只是根据过去的对话预测对话中使用的单词。
这些 LLM 都不是完美的健谈者。他们接受过关于过去人类内容的培训,并且倾向于复制他们在培训中接触到的任何种族主义、性别歧视或偏见的语言。尽管创建这些系统的公司正在努力过滤仇恨言论,但它们尚未完全成功。
知识管理应用
LLM 的一个新兴应用是将它们用作管理组织内基于文本(也可能基于图像或视频)知识的一种手段。创建结构化知识库所涉及的劳动密集度,使许多大公司难以进行大规模的知识管理。然而,一些研究表明,当模型训练针对组织内基于文本的特定知识体系进行微调时,LLM 可以有效地管理组织的知识。LLM 中的知识可以通过作为提示发出的问题来访问。
一些公司正在与商业 LLM 的领先供应商一起探索基于 LLM 的知识管理的想法。例如,Morgan Stanley 正在与 OpenAI 的 GPT-3 合作,对财富管理内容的培训进行微调,以便财务顾问既可以在公司内搜索现有知识,又可以轻松地为客户创建量身定制的内容。此类系统的用户似乎需要培训或帮助才能创建有效的提示,并且 LLM 的知识输出在应用之前可能仍需要编辑或审查。然而,假设这些问题得到解决,LLM 可以重振知识管理领域,并使其更有效地扩展。
Deepfakes 和其他法律/道德问题
已经可以看到,这些生成式 AI 系统会迅速导致许多法律和伦理问题。「Deepfakes」或由 AI 创建的图像和视频,声称是真实的,但实际上并不真实,已经出现在媒体、娱乐和政治领域。然而,迄今为止,深度造假的创建需要大量的计算技能。然而,现在几乎任何人都可以创建它们。OpenAI 试图通过用独特的符号为每张 DALL-E 2 图像「加水印」来控制假图像。然而,未来可能需要更多的控制——尤其是当生成视频创作成为主流时。
生成式人工智能还提出了许多关于什么构成原创和专有内容的问题。由于创建的文本和图像与以前的任何内容都不完全相同,因此这些系统的提供者争辩说它们属于它们的提示创建者。但它们显然是先前用于训练模型的文本和图像的衍生。不用说,这些技术将在未来几年为知识产权律师提供大量工作。
从这几个业务应用程序示例中可以清楚地看出,我们现在只是触及了生成式 AI 可以为组织及其内部人员做些什么的皮毛。例如,这种系统可能很快就会成为标准做法,以制作我们大部分或全部书面或基于图像的内容——提供电子邮件、信件、文章、计算机程序、报告、博客文章、演示文稿、视频等的初稿。毫无疑问,此类能力的发展将对内容所有权和知识产权保护产生巨大且不可预见的影响,但它们也可能彻底改变知识和创造性工作。假设这些人工智能模型在它们存在的短时间内继续发展,我们很难想象它们可能产生的所有机会和影响。
相关报道:https://hbr.org/2022/11/how-generative-ai-is-changing-creative-work