生成型人工智能模型的潜力：从聊天机器人到图像和视频生成器

In 2024, the field of generative artificial intelligence has evolved into a high-risk battleground, with a wave of newcomers challenging the castle once ruled by OpenAI.

每个人和他们精通技术的祖母似乎都在争夺人工智能蛋糕的一块，创造语言模型、代理人工智能、图像生成器，甚至是一两个人工智能模因硬币。

基准的变化速度超过了我们人类的能力。几乎每周都有一些闪亮的新玩具上市——这里有一个更新的LLM，那里有一个涡轮增压的图像生成器，或者下一代人工智能展示了一些奇特的训练技术。

但在这里解密，我们卷起袖子，把它们都试过了。

我们踢了轮胎，按下了按钮，深入了解了最受欢迎的人工智能模型（以及一些不太知名的模型）的内部运作和输出。

现在很明显，OpenAI并不是镇上唯一的警长，我们已经编制了一份精英名单——那些让我们惊叹、困惑、偶尔让我们吐咖啡的生成性人工智能模型。

聊天机器人

聊天机器人是一种计算机程序，旨在模拟与人类用户的对话。它使用自然语言处理和人工智能来理解用户输入并生成适当的响应。通常，人们会将聊天机器人与LLM或大型语言模型混淆。

如今，聊天机器人有点复杂，其功能超越了文本生成。他们现在可以浏览网页、生成和理解图像、与用户交谈等。

以下是您应该尝试的最佳聊天机器人列表：

金牌：OpenAI的ChatGPT

ChatGPT以每月20美元的价格提供了一系列功能，包括使用自然语言创建自定义代理、干净的界面、网络搜索和多种模型（推理、写作、视觉、语音和图像生成）。

银牌：人类学的克劳德

Claude是一款高级LLM，具有直观的UI，具有用于推理和代码生成的分屏工件，支持数百万个令牌上下文和自定义代理。然而，它缺乏网络搜索和图像生成，经常面临容量问题，迫使用户切换到较弱的模型或生成“简洁”的较短答案。因此，目前还不可能是最好的。

铜牌：Mistral AI的在线聊天

这个免费平台由Mistral Large提供支持，具有顶级Flux图像生成和卓越的网络搜索功能——在我们看来，这是最好的，甚至击败了SearchGPT。它支持文档/图像理解和开源AI代理，尽管文本质量落后于竞争对手。然而，Mistral Large LLM不如竞争对手强大，这使其成为愿意以文本质量换取功能的高级用户的理想选择。

荣誉提名：Meta AI，双子座（来自谷歌的人工智能工作室，而不是主网站)，拥抱聊天，Reka，Grok-2

大型语言模型

大型语言模型（LLM）是一种基于大量文本数据训练的人工智能系统，用于理解和生成类似人类的语言。你可以把它看作是一个美化的自动补全。它们旨在预测一组中最有可能的标记（想想单词，尽管这是一个不准确的比较）是什么。

结果是自然的文本，感觉很人性化，因为它类似于人类会做的事情。

以下是我们迄今为止最好的LLM列表：

最佳通才：OpenAI的GPT-4o

通过可定制的“画布”功能平衡创意写作、编码和推理，尽管其风格感觉可以预测最新版本（自11月20日起）也在LLM竞技场ELO得分为1366，击败了11月21日发布的Google Gemini实验版。

最适合写作：Anthropic的克劳德3.5十四行诗；

在许多领域达到或超过GPT-40，更具创意，类人输出，尽管它容易产生幻觉。

最适合讲故事：Longwriter

生成10000多个单词的故事几分钟内。我们还需要说更多吗？

最通用的：Meta的Llama-3.1

这个领先的开源模型具有广泛的定制、LoRA创建和微调选项，参数大小从70亿到4050亿不等，因此用户可以根据需要在本地机器或云服务器上运行它。Nvidia开发了一个名为“Nemotron”的定制版本，在社区中引起了轰动，值得一试。

最大的失望：反射Llama-3.1 70B

宣布凭借其内置的思维链，该模型声称击败了GPT-4o，期望值很高。它最终成为了一场重大的失败，虚假的基准测试，对Claude AI的隐藏API调用，以及；重大争议。

图像生成器

图像生成器本质上是一个获取文本输入并提供与该文本输入相关联的输出的模型。例如，你说“有龙脸的绿马”，模型将生成一张有龙脸绿马的照片。你也可以输入类似“busty waifu”的内容，但这不是它们的用途。

这些是目前可用的一些最好的图像生成器

最佳通才：Flux

通量占主导地位最新一代的人工智能模型，具有大量定制、LoRA/ControlNet支持和文本生成功能。它需要强大的硬件，但展现出一种用户仍在努力解决的极端散景和松弛皮肤细节的独特风格。

它有三种风格：Pro（闭源，最强大的模型），Dev（非商业许可）和Schnell（开源，蒸馏版本）。这三种都提供了出色的图像生成功能，如果考虑微调，上限会更高。

最适合现实主义：Recraft v3

交付无与伦比的现实主义，提供多功能预设，比MidJourney等专有替代品更有价值。

它有一个免费层，提供相同的质量——尽管Recraft拥有几代人。

最佳动漫：MidJourney Niji

动漫风格图像的质量无与伦比；稳定扩散微调是次要选择。

最通用：稳定扩散3.5

稳定扩散3.5是重大改进与SD3相比，它具有更好的许可、详细的输出和附加支持。

在微调方面，它比Flux更节省资源，并且是一个完整的模型——与Flux Schnell不同，Flux Schnnell是一个蒸馏版本——使其成为定制模型的最佳选择。

然而，它的发布有点晚，并且被Flux的受欢迎程度所掩盖。

最大失望：SD 3中型

每个人都希望这款新机型能成为新的图像生成器之王，击败SDXL和其他所有机型。它最终成为了一个糟糕的模型，因其可怕的执照以及在试图生成时出现的可怕异常草地上的人.

视频生成器

视频生成器使图像生成更进一步。他们生成每一帧，并将其用作输入，以生成具有图像一致性和高提示粘附性的下一帧。

这项工作仍在进行中，模型只能生成几秒钟的视频。下面是一些你可以尝试的最好的列表。

最佳通才：克林

迅速完善中国模式，超越索拉在某些情况下。支持面部模型训练，并始终如一地生成高质量的场景，在风格、真实感和相机移动方面表现出极大的多功能性。

最佳竞争者：Runway Gen 3

开创性的生成视频这款应用程序对环境有着扎实的理解，但在快节奏的场景中却举步维艰。

最适合讲故事：ShowRunner

我们不能告诉你很多关于这个。；然而，在保密测试中，它显示出了巨大的潜力。

最佳开源：Genmo Mochi 1

太棒了释放它以卓越的真实感和帧一致性击败了Rhymes Allegro和Stable Video Diffusion等竞争对手。

最大的失望：OpenAI Sora

宣布尽管人们对它作为超越任何一代视频的革命性“世界模式”寄予厚望，但它今天仍然无法令人印象深刻泄漏输出.

荣誉提名：谷歌Veo

谷歌的Veo于12月3日获释。我们还没有测试过，但谷歌分享的几代人看起来很不错。当然，我们正在等待测试该模型，一旦我们获得访问权限，您将第一个知道我们的想法。

音乐发生器

就像视频生成器一样，音乐生成器也可以创建歌曲。然而，它与音频生成器不同，因为输出更专门用于旋律输出，而不是噪音、普通声音或音频效果。

用户可以依靠单独的LLM来生成歌曲的歌词或手动输入歌词，并设置一些参数，如歌曲的风格，然后模型将从头开始输出相关的音乐。

这是最好的两个，还有一个开源的替代品。

最佳通才：Suno v4

在声乐和歌词、风格多样性和长篇一致性方面表现出色；其前身；Suno v3.5，不是免费的，但仍然是一个强有力的替代方案。

最佳竞争者：Udio

Suno最大的竞争对手。它提供了令人印象深刻的作曲准确性，在人声方面几乎可与Suno v4相媲美。有些世代超越了Suno v3主观风格。

最佳开源：稳定音频2

开源领域在这方面做得不多。稳定音频2似乎是最好的模式，但在各个领域都落后于闭源竞争对手。Meta的音频工艺MusicGen是替代品，但远非行业领先。微调人员没有注意到，通常，他们是使开源模型如此伟大的樱桃背后的人。

编辑人安德鲁·海沃德

生成型人工智能模型的潜力：从聊天机器人到图像和视频生成器+ 查看更多

生成型人工智能模型的潜力：从聊天机器人到图像和视频生成器
+ 查看更多