让 ChatGPT o3 用我的阅读记录绘制个人画像
最近读了一篇博客,叫做 I used o3 to profile myself from my saved Pocket links,作者把他最近 7 年在 Pocket 软件里保存的文章链接丢给了 ChatGPT o3, 让 GPT 给他做个人画像分析
以下是原作者的 Prompt:
I’m going to share a list of articles that I’ve saved to Pocket, a read-it-later app. I want you to use that information to “profile” me. Tell me everything about myself that you can possibly infer from this data set. Here’s an example of possible dimensions of that profile, but feel free to include other things that you can infer: age, sex, geographic location, education level, industry/field of work, job level/seniority, income bracket, political orientation, risk tolerance, learning style, information diet, relationship status, parental status and kids’ ages, health concerns, major life transitions, seasonal patterns in interests, etc.
正好 ReadWise 也支持历史文章导出,我也尝试让 ChatGPT 根据我的历史阅读的标题列表给我做一下「侧写」
这里我是把 archive 里的几千条标题内容直接粘到了聊天框里,没有使用上传 CSV 的方式,因为上传 CSV 的话 o3 会花费精力写代码进行分析,最后的效果不如直接贴文本。还好 ChatGPT 聊天框支持粘贴这么多文本进去,不然我还得做个采样。
以下是 ChatGPT o3 的回复(画像部分做了一些删减):
Thought for 16 seconds
Based on the user’s saved articles, I can infer that they likely have a background in tech, possibly as a software engineer or product manager. They may be interested in independent hacking, SaaS, AI, and finance topics, and their focus on remote work and digital nomadism suggests a global mindset. They might be in their late 20s to mid 30s. Additionally, they appear to be a Chinese-speaking individual, likely focused on entrepreneurship, personal growth, and family life.
The user appears to be between 25-40 years old, with potential interests in Singapore, Japan, and Canada, possibly considering or planning a move to Singapore. Their content suggests they’re into tech, indie development, and finance. The user might be male, but the gender is uncertain. For income, they might be in the middle to upper-middle range, with an estimated annual income of RMB 30-80k or S$6-10k in Singapore. They likely hold a senior/independent software engineer position with interests in growth, SEO, and product development. Their learning style is systemic, and they consume content from Twitter, Reddit, and more.
下面是基于你在 Readwise Reader 里收藏的文章标题所做的「画像」推断。仅依据内容偏好,不等同于事实;每条都给出依据与可信度(1=很弱,5=很强)。
画像维度 推测 主要依据/迹象 可信度 年龄段 27–38 岁 高频主题为独立开发、出海、职业转型、资产/税务配置、长期效率系统与「三十而立」语境内容;较少校招/入门话题。 4 母语/语言能力 母语中文,英语可读写 中英夹杂的技术/增长/金融资料,大量英文资源、PH/HN/Reddit 玩法与提示词收藏。 5 地理位置(现居/重心) 新加坡/东南亚重心,常关注香港/日本/加拿大 多篇「新加坡工作指南/面试市场」「新马考察记」「香港银行开户」「泰国/日本移居」与跨境金融、出入金内容。系统时区也位于新加坡。 4 教育背景 本科或以上、理工/CS/工程类 技术深度(RAG/微服务/事件驱动/K8s/Go/Next.js/Cloudflare/LLM 工程化)、系统化学习法(Heptabase/Obsidian/PKM)。 4 职业/领域 软件工程 × 产品/增长或独立开发者 大量独立开发、工具链(Next.js、Supabase、Vercel、Stripe/Lemon、Framer)、SEO/内容增长、PH 发布、build in public。 5 收入区间(主观推测) 中产偏上;现金流更重视美元化、波动容忍度较高 频繁研究 MRR/ARR、美元收款与税务、资产全球化与出入金、期权/套利/加密。 3 风险偏好 中高(“可控试错型”) 关注加密/套利、SEO、快速验证与小额盈利复盘;同时重视合规、税务与风控。 4 政治/价值取向 市场主义/务实全球流动性取向 重视个人产权与全球化配置、偏好效率工具与可衡量的增长;对监管与合规动态敏感但不情绪化。 3 学习风格 系统化/结构化、重复盘、偏工程化链路 Heptabase/白板/Obsidian/PKM、Reader + RAG 工作流、提示词工程、Notion/看板、数字花园;爱播客长文与信息源治理。 5 信息饮食 X(Twitter)/Reddit/Hacker News/Product Hunt/Newsletter/播客 多条对这些平台的冷启动、内容策略、抓数与工具链收藏;读者型+实践型并重。 5 迁徙/身份规划 有明确的「地点自由/身份合规」规划 香港/新加坡/美股账户、签证/开户/报税攻略;日本/泰国/加拿大的信息也多。 4 金融素养 关注资产多元化与衍生品试水 期权、量化回撤讨论、美元账户、税负优化;也收藏风险教育(防冻/合规/黑产防范)。 4 亲密关系 不确定,但对「伴侣/家庭」话题敏感 有「女朋友/老婆」与育儿/教育/家居/健身等内容,但多为他人案例;无法据此确定本人状态。 2 子女/育儿 未能确认,高概率为未育或备育/关注阶段 「新加坡养娃」「NICU 话题」「育儿播客」「教育路径/学校」等信息搜集型而非经验总结型。 2 生活方式 数字游民/远程友好,工具控与自动化偏好 Homelab/Cloudflare/自托管、全平台效率工具盘点、旅居与工作流整合(RSS/语音转录/自动整理)。 5 审美/内容偏好 「能转化的清晰表达」与实用主义美学 对OG 图、品牌资产、白板表达、卡片化总结、简洁着陆页/信息架构有体系化偏好。 4 性格特征(推测) 自主、克制、数据导向、乐于公开复盘 大量 build in public、数据披露、失败复盘与「先验证后 All-in」的叙事。 4 近期主线 「AI × 独立开发 × 出海」的可持续现金流 RAG/Agent/工作流、低成本长文生成与引用、AI 搜索/导航站/二脑工具、SaaS 端到端链路。 5 中期目标 地点与收入双重自由、提升美元收入稳定性 重视美元收款闭环、合规、税务与渠道,目标从「副业→稳定 MRR→可支撑家庭/团队」。 4 高置信度的“你”的关键词
独立开发 / 出海 / SEO / SaaS / Heptabase-Obsidian-Reader / Stripe-LLC-ITIN / 新加坡-香港-日本 / Reddit-PH-HN / 税务合规与出入金 / 稳健试错的增长
低置信度/需你确认的点
- 亲密关系与是否已育(收藏多为他人经验,难以坐实)。
- 现居是否已在新加坡(从行为与资料高度匹配,但仍可能是筹备/过渡期)。
- 主业身份(独立全职 vs. 仍在职的双轨)。
整体上来看 ChatGPT 的推断还是挺准确的,让 ChatGPT 找了下文献 1, 2 ,结论是 LLM/VLM 通过文本、图像来进行个人属性推断时已经能够达到 70-90%+ 的准确率。
这延伸出另外一个思考,原先做用户画像需要自己搭机器学习系统,耗费大量时间做特征工程和模型训练,现在只要有数据,任何人/商业公司都能用 LLM API 来做用户画像,之前我确实没想到过用这么低的门槛就能推断出包括年龄、性别、学历、工作、兴趣爱好等个人信息,现在我开始怀疑,未来我们保留在商业公司信息里,会包含多少之前未曾设想过的维度了,毕竟理论上现在一个笔记软件、阅读器、收藏夹都能根据阅读历史轻易绘制出我们的用户画像。
简单算一笔账,以我这次测试为例,输入为 4000 个标题大概 15 万中文字符,也就是 30 万输入 token,3000 token 的输出可以忽略不计了,换算到 ChatGPT o3 API 的成本是 $0.6,我这个成本算是非常高的了,以前面提到的参考博客里的例子,ChatGPT 用 900 多条 url 也做出了他精准的用户画像,单次成本 < $0.2,更何况我们完全可以使用价格更低廉的模型达到类似的效果。像现在 Email Marketing List(消费者邮件清单) 价格在 $100-$600 CPM,也就是每个人 $0.1-$0.6,所以靠贩卖用户画像数据,大概率也能够覆盖 LLM API 的成本。
Fun fact,大公司往往可以监控员工工作电脑的网页访问记录,如果在此基础之上借助 LLM 进行分析,或许能推断出你的价值观、工作状态、异动倾向、健康与家庭情况、政治立场。。。所以出于隐私考虑,我不会在公司电脑做私人相关的事情,以及,小心看管自己的浏览记录🙈