生成式AI如何帮助想象更好的机器人模样

2024-03-04

世界科学 2024年2期

编译/高斯寒

AI没有给出图解，但它确实激发了创造力。

2023年大概会被铭记为生成式人工智能（GAI）之年。生成式AI是否会把我们的生活改变得更好，这依然是个未知的问题。然而，有一点是确定的：最新的AI工具正在被迅速推出，而且在未来的一段时间里都会继续这种势头。工程师用AI做实验，将AI融入设计过程，能从中收益良多。

这种情况在某些领域中早已发生。阿斯顿 · 马丁公司DBR22概念车的设计者就依靠整合数字3D软件的AI来优化后副车架部件的外形和布局，该软件来自数字工业制造系统公司Divergent。这种后副车架具有朴实简练的外观，这全靠AI对于形状的探究才变得可能。实际的部件通过增材制造技术加工而成。阿斯顿 · 马丁公司说，这种方法大幅降低部件的重量，又保持了部件的刚性。公司计划在未来的小批量生产车型中采用相同的设计和制造步骤。

AI协助设计的其他例子能够在美国宇航局（NASA）的太空任务中找到，其中包括行星仪器、空间望远镜和火星样本取回任务。NASA工程师瑞安 · 麦克莱兰（Ryan McClelland）说，最新的AI生成设计方案也许“看起来有点陌生和奇怪”，但可以使部件重量低于常规，却能容许更高的结构荷重。另外，和传统部件比起来，设计所需的时间只是前者的一丁点。麦克莱兰称，这些新设计是“进化出的结构”。这个说法指的是AI软件如何通过设计突变来迭代，趋近于高性能的设计方案。

NASA工程师麦克莱兰称，他使用商业AI软件设计出的3D打印部件是“进化出的结构

在这些类型的工程环境中，与生成式AI共同设计、高质量的结构化数据以及充分研究后的参数能清楚地导向更具创造力、更有效的新设计方案。我决定试一试这种方式。

生成式AI如何激发工程设计的灵感

2022年1月，我开始用生成式AI做实验，以此作为我对信息物理系统研究工作的一部分。信息物理系统涵盖广泛的应用，包括智能家居和自动驾驶等。它们依赖于实体部件和计算部件的整合，通常还包括部件之间的反馈回路。为了开发信息物理系统，设计者和工程师必须相互合作，以创造性的方式进行思考。这是一个很耗费时间的过程，我寻思着，人工智能生成器能否帮助扩大可选设计方案的范围，使得更高效的迭代循环成为可能，或者促进横跨不同学科的合作。

阿斯顿·马丁公司使用AI软件来为DBR22概念车设计零部件

当我开始进行生成式AI的实验时，我并没有寻求实际的设计指引。更确切地说，我想要的是灵感。最初，我只为好玩而尝试了文本生成器和音乐生成器，但我最终发现，图像生成器最适合用来获得灵感。图像生成器是一类能基于一组输入参数或提示语而创造出图像的机器学习算法。我试验了多个平台，努力弄明白如何在每个平台上组织起良好的提示语（提示语是生成器用来产生图像的输入文本）。我尝试过的平台有Craiyon、DALL-E2、Midjourney、NightCafé和Stable Diffusion。我发现，将Midjourney和Stable Diffusion组合使用的话，对于我的意图来说表现最好。

Midjourney使用专有机器学习模型，而Stable Diffusion开放了源代码，让所有人都能免费获取。Midjourney只有在联网时才能使用，而且提供不同的订阅方案。你能下载Stable Diffusion到你的计算机上后运行，免费使用，或者你可以支付少许费用，就能在线上使用它。我在本地电脑上使用Stable Diffusion，并且订阅了Midjourney。

在我初次试验生成式AI时，我使用图像生成器来共同设计出一种自我依赖的水母机器人。我们打算在我位于瑞典乌普萨拉大学的实验室建造这样的机器人。我们的研究团队专长于自然启发下的信息物理系统。我们预想这种水母机器人能从海洋中收集微塑料，充当海洋生态系统的一部分。

在实验室里，我们设计信息物理系统时，一般经过头脑风暴、画草图、计算机建模、模拟、原型试制、测试等在内的迭代过程。第一步就是团队开会，基于系统计划的用途和约束，构想出初步概念。接着，我们画出粗略的草图，建立基本的计算机辅助设计（CAD）模型来将可选的不同方案可视化。最具希望的设计方案得到模拟，从而分析动态情况、完善机械设计。然后制造简化原型，进行评估，再建造更加完善的版本。广泛的测试使得我们能改进系统的实体特征和控制系统。上述过程由众人合作，但极大地依赖设计者过往的经验。

我想要看一下，使用AI图像生成器能否开启我们想象的可能性。我开始尝试不同的提示语，从含糊的一句话描述到大段的详细解释，不一而足。起初，我不知道如何提问，甚至不知道该问什么，因为我不熟悉AI工具和它的能力。可以理解，最初的那些尝试未获成功，因为我选择的关键词不够特定，我也没有给予关于风格、背景或详细要求的任何信息。

最初嘗试生成水母机器人图像时，使用了下列提示语：水下、自我依赖、迷你机器人、珊瑚礁、生态系统、超现实主义（图1）。改进提示语后，得到更好的结果（图2），提示语为：水母机器人、塑料、白色背景。图3来自下述提示语：未来主义水母机器人、高细节、生活在水下、自我依赖、快速、大自然的启发

随着提示语中特定细节的增加，能够获得更加符合想象的水母机器人图像。图4、图5和图6都来自下列提示语：一种旨在自我依赖和在海中生存的未来主义电子水母机器人，采用水或弹性玻璃之类的材料、外形能变换、技术设计、透视工业设计、酷比克马克笔风格、电影一般的高清细节、极其详尽、情绪色彩分级、白色背景

随着我尝试更精确的提示语，AI的设计开始看起来与我的想象越发一致。我接着试验了不同纹理和材料，直到我对多个设计方案满意为止。

在区区几分钟后，就能看到我最初给出的提示语的结果，这令人激动。然而，进行改动，重述概念，尝试新的提示语，再结合成功元素得到完善设计方案，这个过程耗费了许多个小时。

与AI一起设计是一次启发性的经历。一个提示语能涵盖许多属性，包括对象、介质、环境、颜色甚至是情绪。我学习到，一个优秀的提示语需要是特定的，因为我想要设计方案适合某个特定的用途。另一方面，我又想要对结果大吃一惊。我发现，我需要在知道和想要的东西、不知道或想象不到但也许想要的东西之间实现平衡。我获知，提示语中任何不特定的元素都可能被AI平台随机分配给图像。因此，假如你想要对某个属性大吃一惊，那么你可以对那个属性只字不提。但假如你想要某些特定的东西被包括在结果中，那么你得要将它包括在提示语中，你必须清楚表达任何对你而言重要的脉络或细节。你也可以将关于图像构成的指示包括进来，假如你在设计工程产品，这会帮上大忙。

控制生成式AI的成果是几乎不可能的

我尝试看看我能在多大程度上控制共同创造的过程，以此作为我调查研究的一部分。有时，控制措施起效，但在大多数时候都以失败告终。

下面的人形机器人设计图中出现的文字实际上并非词汇，它只是一些图像生成器产生的字母和符号，是作为技术制图美学特征的一部分。当我提示AI“技术设计”时，AI经常将这种假语言包括进来，很可能是因为训练数据包括许多带有外观相似文本的技术图或设计蓝图的范例。这些字母仅仅是些视觉元素，算法将它们与那种技术插图的风格联系在一起。因此，AI在遵循它从数据中识别出的模式，即使文本本身是无意义的。这是一个无伤大雅的例子，展示了这些生成器如何从训练中采纳怪异模式或形成偏差，却没有任何真正的理解。

为了生成人形机器人的图像（左），作者从简单的提示语“人形机器人、白色背景”开始，接着使用提示语“拥有摄像头眼睛的人形机器人、技术设计、增加文本、全身视角、强壮手臂、V形身体、电影一般的高清细节、浅色背景”，尝试将代替眼睛的摄像头融入人形机器人的设计中（右）

当我尝试把水母改成章鱼后，AI设计就可悲地失败了——这点令人诧异，因为在工程师眼中，水母和章鱼看起来十分相似（在此要对读到本文的海洋生物学家说声抱歉）。为什么生成器对于水母能产生很好的结果，但对于章鱼就给出死板的、外星生命一般、解剖学上不正确的设计？这是个谜团。我再次假定这和训练数据集有关。

作者使用下面的提示语生成一种类似章鱼的机器人的图像：未来主义电子章鱼机器人、技术设计、透视工业设计、酷比克马克笔风格、电影一般的高清细节、情绪色彩分级、白色背景。下面的两张图片生成时间比上面的两张图片晚了数月，看上去粗陋程度略轻，但依然不像章鱼

在使用AI图像生成器生成多张挺有希望的水母机器人设计图后，我和团队成员一起检阅这些图片，以便决定是否有什么方面能给真正原型的开发提供信息。我们讨论哪些美学元素和功能元素可以很好地转化进实体模型。譬如说：许多图片中弧线的伞状顶盖能对机器人保护性外壳的材料选择给予灵感；收放自如的触手能为会与海洋环境交互的柔性机械臂的实现提供设计暗示。看着AI生成的图像中不同的材料和构成，抽象的艺术风格鼓励我们对于机器人外形和运动进行更为异想天开、更富创造力的思考。

我们最终决定不去直接复制任何设计方案，但AI艺术中的有机外形激发了有用的想法和进一步的研究与探索。这是一个重要的结果，因为任何一位工程设计师都知道，在你进行足够的探究之前就开始执行某些设计的做法很吸引人。即便是奇怪或不实用的计算机生成概念，都能让早期工程设计获益，譬如充当粗略的原型。设计公司IDEO的首席执行官提姆 · 布朗（Tim Brown）已经注意到：“这些原型让我们的速度慢下来再让我们加速。我们花费时间来让构思成为原型，从而避免代价高昂的差错，如设计方案过早地变得太过复杂，或者太久地固守于一个薄弱的构思。”

生成式AI给出的不成功结果也有教育意义

还有一次，我使用图像生成器来尝试绘制一座智慧城市中通信的复杂性。通常，我会先在白板上绘制简图，再使用绘图软件（譬如微软Visio，Adobe Illustrator或Adobe Photoshop）来重新绘图。我会寻找包含组件（车辆、建筑物、交通摄像头、城市基础设施、传感器、数据库）草图的库。然后，我会增加箭头符号来显示潜在的联系和这些元素之间的数据流。譬如，在智慧城市示意图中，箭头能显示交通摄像头如何传送实时数据到云端，计算那些与交通堵塞相关的参数，再将结果传送给联网的汽车，从而优化行车路线。绘制这些示意图需要仔细考虑牵涉到的不同系统和需要传递的信息。这是一个有意图的过程，重点是清楚的传播，而不是一个让你能自由探索不同视觉风格的过程。

我发现，使用 AI图像生成器提供了比绘图软件更多的创意自由，但没有准确地描绘出智慧城市中复杂的相互联结。图像有力地呈现了许多单独元素，但在展示信息流和交互作用时并不成功。图像生成器无法理解背景信息，也无法呈现联系。

在我使用图像生成器数月之久，并將它们逼迫到极限之后，我得出结论，AI图像生成器对于探索、找寻灵感很有用，也能快速生成插图，以便能在头脑风暴环节中分享给同事。甚至当图像本身并非贴近现实或可行的设计时，它们也会推动我们朝着新方向想象，不使用生成式AI的话，我们也许不会考虑那些方向。就算是那些没有准确传达信息流的图像，依然能驱策出卓有成效的头脑风暴。

作者基于以下提示语，尝试使用图像生成器来显示智慧城市中的复杂信息流：智慧城市不同组件之间通信复杂性的示意图、白色背景、设计清晰

我也了解到，与生成式AI一起创造的过程需要一些毅力和奉献。尽管迅速地获得很好的结果很有价值，但假如你有特定的议程，寻求特定的结果，那么这些工具会变得难以操纵。人类使用者对于AI生成的迭代几乎没有控制权，AI给出的结果是无法预测的。当然，你可以继续迭代，希望你会获得一个更好的结果。但就目前而言，几乎不可能控制迭代在哪儿结束。我不会说与AI一起创造的过程全然由人类引导——无论如何，都不由我这个人类来引导。

我注意到，在这个过程中，我本人的思考、交流构思的方式，甚至是我看待成果的视角发生了改变。我有许多次头脑里带着一个具体特征开始设计过程——譬如说一种特定的背景或材料。在几次迭代后，我发觉自己转而基于那些我在第一批提示语中没有具体指定的视觉特征和材料来选择设计方案。在一些例子中，我给出的特定提示语没有奏效。相反，我不得不使用提高AI艺术自由度、降低其他规格重要性的参数。因此，这个过程不仅允许我改变设计过程的结果，还允许AI改变设计，也许还有我的想法。

从开始实验起，我使用的图像生成器已经更新过许多次，我已经发现，更新版本的图像生成器让结果更加可预测。假如你的主要目的是见到非常规的设计概念，那么可预测性会带来负面作用，然而我能够理解在和AI共事时获得更多控制权的需求。我想，我们今后会见到一些按约定要求以可预测的方式执行任务的工具。更重要的是，我期待见到图像生成器和许多工程工具整合在一起，并且有更多人将这些工具生成的数据用于培训。

当然，AI图像生成器的使用提出了严肃的伦理议题。它们有着放大训练数据中人口统计偏差和其他偏差的风险。AI生成的内容可能散播错误资讯，侵犯隐私和知识产权。关于AI生成器对艺术家和作家生计的影响，有着许多合理的担忧。显然，对于数据来源、内容生成和下游使用，需要做到透明、监督和可归责。我认为，任何一个选择使用生成式AI的人士必须严肃看待这些问题，以合乎伦理道德的方式使用生成器。

假如我们能确保大家以合乎伦理的方式使用生成式AI，那么我相信这些工具能给工程师提供许多帮助。和图像生成器一起创造，能帮助我们探索未来系统的设計。这些工具能转变我们的思维模式，让我们离开舒适区——这是一种在工程设计一丝不苟的作风施加秩序之前制造一点混乱的方式。通过利用AI的力量，我们工程师能够开始以不同的方式思考，更加清楚地看见关联，考虑未来的影响，设计出创新、可持续、能够改善全球人类生活的解决方案。

资料来源 IEEE Spectrum

————————

本文作者迪代姆 · 居尔杜拉·布罗（Didem Gürdür Broo）是瑞典乌普萨拉大学信息技术系助理教授。她领导了信息物理系统实验室，指导以数据为中心的方法、可持续设计和以人为本的智能系统实现方面的研究，譬如协作式机器人、自动驾驶、智慧城市。她拥有瑞典皇家理工学院机械电子学博士学位，曾是斯坦福大学的玛丽 · 居里学者，并在剑桥大学担任过研究助理。