Dall-E生成的图片
随着我们向通用人工智能 (AGI) 迈进,大型语言模型 (LLM) 的军备竞赛愈演愈烈。各公司在多个维度展开竞争:成本效率、训练模型大小、计算能力、速度、推理基准和上下文长度,以打造最好的人工智能助手。毫无疑问,这些维度的进步使得这些产品感觉如此神奇,处理速度如此之快,知识如此渊博,表达如此自然。它们只是讲述了故事的一部分。
“2024 年大型语言模型 (LLM) 成绩对比:顶级模型显示各关键基准之间的差距正在缩小”
随着 LLM 在计算上变得更加出色和高效,我们评估和区分它们的方式正在发生重大转变。在 2024 年,我们观察到最好的 LLM 模型不再遥遥领先于竞争对手,计算优势并不一定意味着产品更卓越。领先模型之间的性能差距只会继续缩小,普通用户对渐进式改进的察觉会越来越小。
“我认为,如果你看看最顶尖的模型,Claude 和 OpenAI 以及 Mistral 和 Llama,我觉得唯一真正能分辨出这些模型之间差异的人是研究它们的人。他们已经非常接近了。” —— Ben Horowitz,《Marc & Ben 的人工智能现状》。
人工智能是否接受 5000 亿或 2 万亿个参数的训练真的很重要吗?对于普通用户来说,真正可感知的是使用人工智能产品的实际效果及其产生的结果。毕竟,推动其采用和保留的不一定是模型的大小,而是它解决的具体用例、它提供的相关交互方式以及它提供的认知赋能类型。
这种趋同表明,我们正在接近原始性能近乎一致的平台,进一步的技术进步可能会导致用户感知价值的收益递减。在这个关键时刻,真正的差异因素出现了:用户体验的质量。
“我们如何量化/对标 LLM 以及用户在使用 AI 时真正关心什么。”
情报就是专注于重要的事情:
通过上面的图片,我们来思考一下,对‘奶奶’的两个回答,哪个更合适(假设奶奶不是技术人员,而是一个对人工智能感到好奇的普通用户)。
现在想象一下,如果“奶奶”正在与人工智能助手聊天。左边的图片显示了一个真实、详细和准确的回答,但……有点不通顺。它使信息变得密集、技术性强、晦涩难懂,普通人无法理解。它感觉不那么智能,因为它无法适应用户的需求,无法想出一种替代方法来有效地沟通。
右图显示了一个过于简单的响应,可能无法满足技术人员的需求。然而,这个响应最终对“奶奶”有用,以一种她可能理解的方式巧妙地与她互动。告诉“奶奶”要更好地适应和提示似乎不太合适。高级人工智能助手应该根据她的需求动态变化。为什么奶奶必须适应法学硕士,而不是相反呢?
“以用户为中心”比“及时工程”更重要
随着人工智能助手的进步,即时工程作为一门学科将会过时,从而降低准入门槛。资料来源:https ://cohesive.so/blog/master-ai-writing-prompts-ultimate-guide
目前与 LLM 交互的模式是告诉用户更好地进行提示工程以优化 LLM 响应,但可以想象这种需求是短视和短暂的。如果您的 AI 助手无法创新地为模棱两可的提示找到解决方法,那么可能是您的产品存在缺陷。成功的 AI 产品需要创新以减轻用户的负担,而不是将提示不足归咎于用户。
转变:从功能到可用性
这个价值十亿美元的问题从“模型有多强大?”转变为“用户如何有效地利用这种能力?”我们开始将重点放在人机界面的创新上。
1.它们能够多顺利地融入或改变我们的工作流程?
2.它们在多大程度上增强了我们解决问题的能力和对世界的理解?
3.如何向用户提供“真正重要”的东西。
这种范式转变要求我们超越技术规范,思考如何定制这些先进模型,以有意义的方式增强人类能力,通过促进认知卸载,增强我们最重要的心理能力。LLM 进化的下一阶段可能不是由原始性能的渐进式改进来定义,而是由人机界面的革命性进步来定义,这些界面可以充分利用这些强大的模型。
聊天界面的持久性
ChatGPT、Claude、Microsoft Copilot、Pi
聊天机器人和人工智能助手终端式界面的普及代表着人机交互的一个关键起点。它们因其熟悉性和有效性而得到广泛采用,这植根于我们对对话范式的集体理解。到目前为止,人工智能助手已经让我们达到了一个很好的阶段,感觉就像我们正在给一个非常聪明的朋友发短信,但它们也有局限性。
“空白画布”问题:缺乏可供性
聊天界面通常会向用户显示一个空白的文本框,这可能会让用户感到害怕,并导致他们不确定如何开始或系统能做什么。这有时被称为“空白画布”问题,即用户在面对开放式输入字段时会陷入分析瘫痪。
ChatGPT 为用户提供了一些示例提示,以大致了解他们可以使用此界面做什么。
缺乏可供性:
与传统 GUI 不同,纯聊天界面缺乏可操作的视觉指示。在缺乏明确提示的情况下,用户在尝试猜测正确的命令或输入时可能会产生认知负荷。
自然语言的误导性简单性
自然语言的开放性可能会导致模糊的输入和不匹配的期望。
并非每个人都是“短信控”
有些人不太愿意通过纯文本/数字来理解。这种对文本的厌恶会阻碍他们通过聊天进行有效互动的能力。智能人工智能应该满足用户的需求,而不是要求更好的提示或语言能力。
“很多时候,人们不知道他们想要什么,直到你把东西展示给他们。”
——史蒂夫·乔布斯
增强聊天界面:通过 UI 护栏和个性化提供更好的指导
为了解决纯文本 AI 交互的局限性,Perplexity.ai等工具正在整合更多指导和上下文 UI 元素。这些增强型聊天界面可适应特定的查询类型,通过提供反提示和建议来展示上下文意识。这种方法可以帮助用户更有效地提出问题,最终提高响应质量。通过在聊天界面上整合视觉提示、结构化输入选项和动态 UI 元素,这些工具创造了更直观、更有指导性的用户体验,弥补了传统 GUI 和对话式 AI 之间的差距。
ChatGPT与Perplexity Pro Search,均使用 GPT-4o 模型
以下是一段很棒的引言:
“因此,颠覆性来自于对整个用户界面本身的重新思考。为什么我们需要链接占据搜索引擎用户界面(指谷歌)的显眼位置?翻转它。”……
“下一代模型将更加智能。你可以做这些令人惊奇的事情,比如规划、查询、分解、收集信息、从来源聚合、使用不同的工具。这些事情你都可以做。你可以继续回答越来越难的问题,但在产品层面上还有很多工作要做,比如如何最好地向用户呈现信息,以及如何从用户真正想要的和下一步可能想要的反向思考,并在他们提出要求之前就把信息提供给他们。
— Perplexity.ai 首席执行官 Aaravind Srinivas 在 Lex Friedman 播客上发表讲话
更多示例:Apple Intelligence、iOS 18
Siri 根据用户的口头请求显示航班信息
在iOS 18 中,Apple Intelligence通过将情境感知集成到用户体验中,提升了 Siri 的功能。当问 Siri “我妈妈的航班什么时候降落?”时,系统会智能地解析与您的查询相关的信息,例如您的联系人、日历事件和最近的通信。然后,Siri 给出全面的答复。它会预料到您可能很快需要这些信息,因此会显示机场航站楼、出发时间和预计到达时间等详细信息,所有这些都整齐地包装并呈现在一个不具侵入性且易于理解的界面中。通过利用熟悉的 iOS 界面并通过 AI 驱动的情境理解对其进行增强,Apple Intelligence 将 LLM 转变为高度适用和实用的工具,使复杂的查询感觉更加自然和有用。
未来:多模式界面
LLM 发展的下一阶段很可能取决于我们如何与这些强大的工具交互和利用这些工具。多模式交互将超越传统的聊天界面,集成语音、视觉、手势和其他感官输入,以创建互补的并发交互流。这为灵活的界面打开了大门,这些界面可以适应和响应各种情境、环境和特定行为。
GPT-4o 语音和视觉
谷歌的 Project Astra 同时采用了语音和视觉模式
生成式 UI:界面设计的未来
新兴的生成式 UI 领域有望彻底改变我们与 AI 系统的交互方式。随着多模式模型的进步,它们不仅能处理不同的输入,还能学习动态生成适合情境的动态界面。
看看New Computer 开发的 Dot,这是一款由人工智能驱动的 iOS 应用,可充当智能个人助理。它是自我编程的,通过从互动中学习并通过类似聊天的界面提供个性化指导,帮助用户组织信息、记住重要细节并引导他们的生活。这是朝着生成式 UI 方向迈出的创新一步。——由 new.computer 的 Sam Whitmore 和 Jason Yuan 创建
这一飞跃意味着人工智能很快就能生成、召唤或呈现不同形式的用户界面,以适应各种用例和用户需求。通过了解我们日常使用的物理界面和类似物,这些系统将为任何给定的任务或解释生成最有效的用户界面。
Claude 3.5 Sonnet 在其“ Artifacts”窗口中 自行生成一个图表以及文本响应来解释动量的概念,这很好地展示了其在设计/使用不同方法向用户解释方面的智能。
想象一下,人工智能不仅仅提供文本和方程式来解释复杂的物理概念,而是生成一个交互式迷你游戏,用户可以在其中操纵变量并实时查看结果。或者想象一下,当人工智能助手帮助制定家庭装修计划时,它会调出一个 3D 增强现实界面,让用户能够通过手势控制来可视化和修改房间布局。这些自适应智能界面将弥合人工智能的强大功能与人类认知偏好之间的差距,使复杂信息更易于获取,任务更直观。
2024 年的新型生成式 UI 工具和技术
资料来源:https://a16z.com/how-generative-ai-is-remaking-ui-ux-design/
当前的工具和技术堆栈由 a16z 精心挑选和确定,展示了利用机器学习和自动化的端到端工作流程。这些工具涵盖了从使用Diagram(现在是 Figma AI 的一部分)、Galileo AI和Chordio进行预生产设计生成,到使用Noya、Screenshot to Code、Anima和Ion进行设计到代码的转换,然后通过OpenV0、Magic Patterns、Tempo Labs和Rapidpages生成代码,最后使用Coframe进行生产,促进了从构思到实施的无缝过渡。这是对生成式 UX/UI 工作流程未来的一瞥,所有这些都由 AI 驱动。可以预见,未来,这些管道内的工具可以紧密集成,共同努力实现生成可扩展的定制界面的最终目标。
谢谢阅读!
暂无评论内容