关于生成人工智能将如何改变供应链的工作方式,已经有很多讨论。在 Blue Yonder,我们希望通过基准研究来检验这些影响。在我们的研究实验中,我们探索了大型语言模型 (LLM) 的开箱即用能力,以及它们是否可以有效地应用于供应链分析以解决供应链管理中面临的实际问题。
包括 ChatGPT 在内的 LLM 是一种通过海量数据训练的人工智能,可以学习语言的模式、语法和语义。在过去的几年中,法学硕士学位呈爆炸式增长,并被广泛应用于全球范围内的内容创作、客户服务和市场研究等一系列领域。
IDC数据显示,软件和信息服务、银行和零售行业预计将在2024年为人工智能投入约896亿美元,其中生成性人工智能将占总投资的19%以上。
这项快速发展的技术为企业提供了更高的创造力、效率和决策能力,从而有能力彻底改变行业和流程。那么 LLM 目前如何处理供应链情况?
关于 Blue Yonder 的生成式 AI 基准研究
我们的生成式 AI 供应链测试大致基于名为“统一律师资格考试”的病毒式 ChatGPT 实验。在本次研究中,最新版本的 ChatGBT 以 297 分的高分通过了律师资格考试,接近所有考生的第 90 个百分位。通过以接近前 10% 的分数通过律师资格考试,法学硕士展示了生成人工智能理解和应用法律原则和法规的能力。这项开创性的研究引发了全球讨论,并凸显了人工智能的变革潜力。
Blue Yonder 决定进一步探讨这一话题,研究领先的 LLM 系统在供应链行业考试中的表现。我们让法学硕士 (LLM) 参加两项标准认证考试,即CPSM和CSCP 。我们的目标?看看法学硕士是否可以成为供应链专业人士,无需经过培训就能了解供应链行业的细分规则和背景。
我们设计了实验,以编程方式运行每个 LLM 进行练习测试,无需测试背景、无需访问互联网且无需编码能力。我们希望评估法学硕士 (LLM) 的开箱即用性能,从而实现一致且公正的评估。
CPSM 和 CSCP 认证考试均为多项选择题。我们并没有让法学硕士简单地选择一个答案,而是为模型设置了一个输出来解释他们选择的每个选项。这种方法使我们能够深入了解每个模型的推理过程,并了解其得出正确或错误答案的原因,从而帮助我们评估每个模型的能力。
在 LLM 的更新版本发布后,我们今年夏天再次进行了测试以收集新的基准结果。
那么,法学硕士能通过供应链考试吗?
令人印象深刻的是,法学硕士生在未接受任何培训的情况下,在供应链考试中表现得出奇地好。我们首先在没有任何背景的情况下考察了 LLM 的开箱即用性能,然后添加了一些优势。
第一阶段:无背景、无互联网接入、无编码能力
虽然大多数模型在没有上下文的情况下都取得了不错的及格分数,但 Claude 3.5 Sonnet 脱颖而出,在 CPSM 认证测试中取得了令人印象深刻的 79.71% 的准确率。在 CSCP 考试中,OpenAI 的 o1-Preview 和 GPT 4o 模型击败了 Claude Opus,准确率为 48.30%,而后者的准确率为 45.7%。

虽然法学硕士在某些领域表现良好,但也表现出局限性,尤其是在面对与数学相关的问题或深度特定领域的问题时。
当仅检查每项认证考试中的数学问题时,OpenAI o1 Mini 展示了 OpenAI 模型准确性的显著提升,其表现优于所测试的 Claude 模型。

这些结果是在没有任何背景、没有互联网访问和没有编码能力的情况下生成的。接下来,我们探讨了如果我们开始为法学硕士提供更多帮助会发生什么。
第 2 阶段:添加互联网访问
在下一阶段的测试中,我们让 LLM 程序访问互联网——允许它们使用 you.com 进行搜索。凭借这一附加功能,OpenAI GPT 4 Turbo 在 CSCP 测试中取得了最显著的进步——从 42.38% 提高到 48.34%。
当查看第一次无上下文测试中最初错过的问题时,Claude Sonnet 模型对 CPSM 问题的准确率约为 53.84%,对 CSCP 问题的准确率约为 20%。
虽然互联网访问允许模型独立搜索信息,但由于在线信息来源不可靠,也可能导致不准确。
第 3 阶段:通过 RAG 提供背景信息
对于下一次测试,我们使用了 RAG(检索增强生成)模型,为法学硕士提供测试中的学习材料。使用 RAG,LLMS 在非数学问题的无上下文和开放互联网访问测试中均表现出色,并在两项测试中均取得了最高的准确度分数。

第四阶段:增加编码能力
最后,对于下一个测试,我们让模型能够使用代码解释器和开放解释器框架编写和运行自己的代码。
利用这些框架,法学硕士可以编写代码来帮助解决考试中的数学问题,这些问题是他们在第一次考试中遇到的困难。凭借编码能力,法学硕士在所有数学问题模型中的准确率比无上下文测试平均高出约 28%。
LLM 对于解决供应链问题有用吗?
总体而言,LLM 系统通过了行业标准的供应链考试。这一业绩为将 LLM 融入供应链管理提供了非常令人兴奋的可能性。然而,这些模型还不够完美。他们既要努力解决数学问题,又要努力解决具体的供应链逻辑。
凭借编写代码的额外能力,法学硕士能够克服许多数学问题 - 但仍然需要非常具体的供应链环境来解决考试中的一些更复杂的问题。
我们的研究表明,只要有正确的工具和培训,生成式人工智能对于解决供应链问题非常有用。
幸运的是,Blue Yonder 在这方面表现出色。我们致力于利用生成人工智能的力量来为供应链挑战创造实用、创新的解决方案。我们新推出的人工智能创新工作室是开发这些解决方案的中心,弥合了复杂的人工智能技术与实际应用之间的差距。
我们的重点是创建适合供应链中特定角色的智能代理,确保这些代理能够解决当前面临的实际问题和挑战。在 Blue Yonder 了解有关人工智能和机器学习的更多信息,或联系我们开始一对一对话。