文章

Ploto 周刊(第 9 期):Agent 与 AI 工作流

本周刊主要记录我近期发现的 AI、科技、独立产品相关内容,以及我的一些思考。当然周刊的内容并不局限于这些,我也会记录下让我有感触的文章。欢迎感兴趣的朋友关注,便于获取更新通知。

文章

你需要的不是智能体,而是一个适合 AI 的工作流

“真正要用好 AI,让 AI 发挥最大效能,核心是还是要基于你要解决的问题,重新设计一个适合 AI 的工作流,让 AI 在工作流中完成它最擅长的工作,至于是不是智能体,是不是大语言模型,是不是 AI 帮你决策,都不是最重要的。”

文章举了几个 AI 工作流的例子,一个是 PDFGPT(将 PDF 转成 Markdown,并且能处理 PDF 中的表格、图片等元素)另一个是 Comic Translate(漫画翻译)

PDFGPT 解析流程:

  1. 使用 PyMuPDF 检测 PDF 里的图片、表格,提取出图片并保存
  2. 为每页 PDF 生成一张图片,将图表位置用红框标记,附上对应图片名称
  3. 借助 GPT-4o 解析标注后的图片,生成 Markdown

Comic Translate 的翻译流程:

  1. 使用一个专业模型做气泡检测,框选气泡位置
  2. 使用 OCR 提取气泡内文字
  3. 使用一个模型移除气泡内的文字
  4. 借助 GPT-4o,根据漫画内容,翻译气泡内的文字
  5. 将翻译后的文字绘制到原来的气泡位置

个人看来, AI 工作流就是将原先复杂的需求,或者单个 Agent 完成效果不佳的需求,合理拆解成一个个子任务,再将其中一部分子任务交由 AI 处理,提高 AI 内容输出的稳定性和可靠性。

Insights from over 10,000 comments on “Ask HN: Who Is Hiring”

作者用 Selenium 从 Hacker News 的 Who Is Hiring 栏目抓取了 10,000 条以上的评论,并利用 GPT-4o 和 LangChain 对数据进行了分析处理。以下是一些我从中关注的一些数据:

  • 借助 Co-Pilot,整个代码编写,数据处理时间在 90min(比我想象的要少很多。。。可能作者本身对 LangChain 比较熟悉吧)
  • 处理 10,891 条数据花费了 $54.09
  • 50% 的岗位都支持远程,这个比例并没有随着疫情结束而快速减少
  • 大约 8% 的岗位能够支持 Visa(工作签证)
  • 企业越来越倾向于招聘 Senior 工程师

Claude AI 的 Artifacts 实际体验

作者分别使用 Gemini Advance 和 Claude AI 的 Artifacts 功能实现了一个搜索自己 Tweets 的插件,总结了下主要观点:

  • Claude AI 的代码能力要强于 Gemini Advance
  • Artifacts 主要以 AI 交互创新为主,让 AI 交付东西变得更友好,比如代码的版本控制、projects 管理、多人协作和分享,不像 ChatGPT 一样,把需要交付内容散落在对话的各个地方
  • Claude AI 在遇到解决不了的问题时,会主动给代码加 Log,然后用户可以将控制台信息反馈返回给 AI,让 AI 修复问题
  • 只能通过对话,由于大部分情况下是文本,无法投屏演示,无法画概念图,无法给原型交互,靠口述很难完整描述自己的需求
  • 5个小时只能对话 50 次,贵

从交互角度看,用 Claude Artifacts 交付代码确实会比靠对话反复重写代码要方便的多,就像是 Copilot/Cursor 的网页替代版,后续如果有场景我也试试 Artifacts😼

独立产品

waitforit

一款 waitlist 制作工具,能够快速创建 waitlist 表格,嵌入到网站或者作为一个独立的表格页面,并且在后台能看到详细统计数据,包括邮箱、点击率、注册用户曲线。

image-20240714191747656

waitforit 是按照通过 waitlist 来的注册用户数来付费,产品在 03/30 上线,现在达到了 700 MRR

image-20240714192138381

Infography

使用 AI,将博客内容转换成视觉吸引力更强的信息图表。主要流程是结合图片模板和 blog 内容,生成一个信息流图片,用于社媒展示之类的场景。

image-20240714192719786

Infography 是一次性付费软件,不同价格会限制每个月制作的图片数,作者在 YouTube 上推广后,两天之内获得了 1.5k 的收入

image-20240714193147832

开源产品

STORM

STORM 是斯坦福大学的开源项目,能够通过联网搜索生成类似维基百科的文章,类似 Perplexity Pages

官方网站部署了一个 Demo。

STORM 分为前期写作阶段和写作阶段两个步骤,在前期写作阶段,STORM 会进行互联网研究,收集参考资料并生成大纲;在写作阶段,STORM 会使用大纲和参考资料生成完整的文章以及引用。

image-20240714214848516

Claude Engineer

Claude Engineer 是一个交互式命令行界面,利用 Anthropic 的 Claude-3.5-Sonnet 模型来帮助软件开发任务,包括文件系统操作、网络搜索、智能代码分析等功能。

Image

本文由作者按照 CC BY 4.0 进行授权

热门标签