Skip to main content

AI 杂谈

· 5 min read

前段时间我参加了某个 PPT 大赛,记录一下使用 AI 完成多媒体工作的经验和想法。

我也算 AI 的重度用户了,从日常生活中聊天、查资料、提建议,到竞赛的题目解答和调试,还有开发组的项目维护和多媒体任务,基本上都离不开 AI。

模型

目前大部分 AI 都只能算聊天机器人,能作为生产力的只有 3 家:

  • OpenAI 公司的 ChatGPT 系列
  • Google 公司的 Gemini 系列
  • Anthropic 公司的 Claude 系列

以前 ChatGPT 是遥遥领先的,现在这 3 家各有千秋吧。

注意现在很多 AI 新品是 macOS 独享,Windows 和 Linux 可能没有。

ChatGPT

OpenAI 就是引爆整个 AI 时代的公司,2022 年底 GPT-3.5 发布全球爆火,

我觉得 ChatGPT 像个竞赛生,在纯粹的逻辑推理上很强,我平时遇到一些数学和算法难题,都会优先扔给 GPT。

Gemini

然后 Gemini 就感觉比较全能吧,毕竟 Google 本身是一家大公司,还有很多其他的产品,生态兼容比较好。

Claude

Claude 有点像文科生,适合用来开发大型项目,还有就是人文关怀很好,现在推理其实也不比 GPT 差了。

Grok

另外还有马斯克 xAI 公司的 Grok 模型,这个模型挺有意思的,2025 年初 Grok 3 发布甚至冲到第一梯队,但现在只能算聊天机器人。

因为 X (Twitter) 也是马斯克的,Grok 有独占的 X (Twitter) 生态,能找到很多新闻帖子,经常刷 X (Twitter) 的应该见过,很多人会在帖子下面评论「@grok is it true?」来判断真假。

还有就是 Grok 比较开放,很多限制级内容都可以聊。上次冬日绘板活动有 IP 限速,我想搞一个 IP 池轮换,还有次我的私人网盘 lailai's Cloud 管理员密码丢失,需要在数据库改 Hash。这些只有 Grok 能用,让 ChatGPT 和 Gemini 搞都被拒绝了,而且还容易被封号,我在 2025 年 1 月的 ChatGPT 账号就是这样没的,一年多的聊天记录都没了。

工具

VPN

这作为一个人最基本的技能,如果不会我也没办法。

社交媒体

在 X (Twitter)、Reddit、YouTube、bilibili 等社交媒体上,有很多人分享 AI 经验,可以去看看。

GitHub

Hugging Face

Arena

GPTZero

任务

文本

文本(Text)毫无疑问一直都是 AI 最擅长的领域,随便找个 AI 都能搞,大家都知道我就不多说了。

我推荐用 Claude,文本的语言风格比另外两个好,ChatGPT 写的文本就是有 AI 感,最后记得要降 AI 率,文科生失业!

代码

代码(Code)也属于文本,AI 非常擅长写代码,简单小代码随便找个AI都能写,大型工作建议用 Agent,程序员失业!

网页也是一段代码,有很多优点:一是稳定,不像让 AI 生成图片一样,每次生成都像抽奖,而且修改一个地方,其他地方就变了,网页能很精细的控制;二是便宜,网页就是一段代码,Token 比图片少很多;三是方便,网页生成后打开浏览器就能预览;四是强大,网页支持的功能很多,不仅是网页浏览,还能用来做图表、PPT什么的,后面我会说的。

智能体

智能体(Agent)简单来说就是让 AI 不只是聊天机器人,能自行规划步骤、调用工具、完成任务的 AI 助手,独立完成一些大型项目,目前这 3 家都有桌面端,分别是 Codex、Gemini CLI、Claude Code。

图片

图片(Image)只有 OpenAI 的 GPT Image 和 Google 的 Nano Banana 生图模型,Claude 一直没有生图模型。

以前 nano banana 2 比 gpt-image-1.5 略强一点,现在新出的 gpt-image-2 遥遥领先了,设计师失业!

图表

图表(Chart)有三个生成思路:一是让生图AI直接生成,但细节和一致性不好;二是让 AI 写 Python 脚本,调用图表库生成,但设计一般,看上去很古老;三是让 AI 写 html 网页,这个是我用下来最好的,AI 给的细节和一致性都很好,大小像素级可调。

模型

模型(Model)是个比较冷门的领域,我也尝试了很多方法,首先是直接 AI 生成,但效果一般;然后是专门的AI建模;还有让 AI 写 Python 脚本建模一个胚,然后截图让 AI 贴图,这样保证的比例正确;但现在 Claude 原生兼容 Blender 杀死了比赛,和真人手工做的一模一样,还能自动贴图、渲染等。

PPT

你可能无法想象,这个 PPT 是我手工排版设计的……我最开始是让 Codex 直接生成的,它装了几个插件,并写了一个很长的 Python 脚本生成 PPT,但是效果不好,排版混乱。当时我急着出结果,就用 Figma 手搓了一个 PPT,设计还凑合,勉强能看吧;前段时间 Codex、Claude、Gemini 都拥有了原生的 PPT 能力,效果好多了;而且还新推出了 Claude Design 专业 AI 设计功能,可以做出顶尖设计,并支持 PPT 导出。还有一个想法,就是用网页排 PPT,因为 AI 擅长网页。

视频

视频(Video)生成我玩的不多,以前是 OpenAI 的 Sora,但前段时间 Sora 下架了,推荐用字节跳动旗下的Seedance 和 Google 的 Veo。

音乐

音乐(Music)我也玩的不多,只记得 Google 的 Lyria。