科学网-ChatGPT Atlas Agent 如何帮你采集数据和调研？-王树义的博文

切换到桌面版

ChatGPT Atlas Agent 如何帮你采集数据和调研？

2025-10-25 11:30

阅读：10016

兴奋

2025 年 10 月 21 日，ChatGPT 推出了首款集成 AI 助手功能的浏览器，叫做 ChatGPT Atlas。

很多人为此非常兴奋。也有不少人嗤之以鼻，抛出来一句 —— 和 Perplexity 的 Comet 有啥区别？

嗯，第一个区别，就是这回免费用户不需要邀请码就可以下载使用。

要知道，Comet 这个邀请码政策，曾经导致不少网友见识到了人性的考验。收到邀请码后下载激活，自己又可以得到两个邀请码。原本讲好了，发一个继续接龙薪火相传，于是群里的大家都能用上。但是无数次，有人就是悄悄领了码，然后一去不回。

这次好了，这种闹剧不会上演了。

使用这款 AI 浏览器最大的好处是，你可以把浏览器里的页面当成你的上下文来处理。

从此你就用不着从这里拷贝一段，然后跑到 ChatGPT 里面粘进去再问问题，再拿着答案反馈回来，再进行信息综合、校正或者其他操作。那太麻烦了。

例如我在右侧对话窗口直接提问：「我就是 faculty（教师），帮我起草一份邮件」。

在普通的 ChatGPT 对话里，这就是一句没头没脑的话。但因为有左侧网页上下文，一封找 Workflowy 申请教育优惠的英文邮件立即就完成了。你只需要根据个人情况，再填几个空格即可。

再比如我在知识星球里面问了一个问题：「最近哪些星友发言活跃？」

你看，ChatGPT 马上就在右侧列出来了若干星友的名称、最近发言时间、发言主题，以及和星主（我本人）有哪些互动情况，例如回复和点赞。

但是我今天要给你介绍的，可能比这些看起来已经很好用的功能，对你更有价值。那就是 ChatGPT Atlas 的 Agent （智能代理，能自主执行任务的 AI 程序）能力。

助理

如果说刚才给你介绍和演示的浏览器内聊天功能，是让 AI 「看你所看」，那 Agent 功能则是让 AI 「做你所做」。它可以自动感知网页环境，点击链接，挪动鼠标，输入文字…… 总之，操作网页的一切活儿，理论上都能替你干了。

用处是什么？

官方给出了一个示例，说可以帮助你采购东西。

你看，它接受用户输入后，自己在网页里查看，然后搜索「防晒霜」，并且加入购物车。

我知道，你对购物不一定有这么大兴趣。但是如果它能帮你采集整理信息，甚至做综合性调研呢？

目前科学界主流的研究范式以数据驱动为主。即便目前更流行的说法是「数智融合」，但「数」也在先。数据的采集是后续处理的基础。

咱们今天就来看看「数据采集」这个基础工作，如何用 AI 赋能。

假设我们需要从网站上获取信息。网站上的内容，有静态的（例如个人介绍页面），也有动态的（例如评论信息）。

以前没办法，你需要学习相关技术，包括 HTML、 JavaScript、Python、网络爬虫等，还得了解一系列的软件包或者工具。

而今天，我们看看当浏览器已经变成了 AI agent 的时候，这个工作可以怎么做。

静态

我们先看静态网站数据采集。说明一下，为了避免冒犯他人，我后面的例子都以我自己或者我身边的环境为例。

这个例子，是采集我系教师详细介绍。打开我们系老师列表，你会看到我们系现有 9 名教师。

任务不复杂。当前页面有每位老师的简介。但每个老师的页面都有详细介绍。我现在就想把这些详细信息都抽取出来。

怎么提要求？

我说：

打开每一个老师的页面，采集全部信息，汇总成一个表格，并且提供下载链接

ChatGPT Atlas Agent 立即就开始干。

它首先查看页面内容，然后盘算具体做法。

随后，它选择了其中一位老师的页面打开。

此处它打开的是吴芳老师的个人页面，查看网页结构，举一反三，以便对其他老师页面批量处理。

这个过程，你可以把浏览器放到后台，或者开一个新的 Tab 做别的都行，不需要一直在前台盯着。

在处理下载请求时，ChatGPT Atlas Agent 发现当前环境无法直接生成文件。

不过它解决起来也很机智，生成了一个 CSV（Comma-Separated Values，「逗号分隔值」）文件，告诉我们只要拷贝粘贴到文件即可使用。

这是一个简单的例子。实际上，为采集不到 10 个网页的数据，使用 ChatGPT Atlas Agent 有些「大炮轰蚊子」。

但是可以想象，如果需要抽取数十上百结构类似的网页，用这种方式可以帮助你节省自己的操作时间。

动态

下面我们进一步来看动态网页的评论信息采集。

不少研究过社交媒体信息传播的同学，应该都采集过评论内容，也应该了解这要么是个体力活儿，要么是个技术活儿。

下面我们来看，ChatGPT Atlas Agent 如何以「口述」方式帮助我们采集 B 站评论信息。

例子是我今年国庆期间在 B 站发布的视频《Sora 2 好玩儿吗？视频生成效果如何？》。

在这个视频下面一共有 29 条评论。以此作为展示较为合适 —— 数量不多，但评论间也有互动。虽然规模不大，但具备典型性。

我打开 Agent 模式后，直白要求「所有评论整理输出」。左侧网页变色，表明 Agent 已开始工作。

这是 ChatGPT Atlas Agent 采集到的结果，它说「以下是视频页面上列出的所有评论整理」。

评论信息齐全，可惜 ChatGPT Atlas Agent 将所有评论平铺展示，不利于显示评论之间的关联关系。

好在我们可以轻松提出进一步要求，把提示词加上：

要体现结构，例如一级评论、二级评论、时间和用户名等

这回的结果，完全不一样了。信息更全，包括了评论人、评论时间等。

尤其是你看我和网友的互动，上面用缩进显示得一清二楚。

这是后面部分。

数据有了，展现形式也很符合咱们的需求。不过这样的数据拿给程序分析，还是不够理想。因为还不够结构化。

为了让 Python 软件包或者 AI 分析的时候更加方便，咱们可以要求输出为 JSON（JavaScript Object Notation，「JavaScript 对象表示法」）格式。

你说自己不懂 Python ? 没关系，AI 懂啊。

你看 ChatGPT Atlas Agent 这次输出的结果，把 user、time、content、replies 等字段一一呈现。

对于有交互的评论，还会把 replies 作为列表，里面放不同的 object。

你可能觉得这些符号和字段较为晦涩。没关系，只要能确保 AI 后续数据处理环节更加准确高效就可以了。

你可能觉得：

不就是 29 条评论吗？我自己一条条拷贝都行。犯得上这么大费周章吗？

为了演示方便，我们选择了简单案例。在可扩展性上，要有想象力。如果是 290， 2900，甚至是 29000 条，你觉得使用 ChatGPT Atlas Agent 还算是「大费周章」吗？

调研

说完了数据采集，咱们来讲讲综合调研。

采集是原封不动地呈现原始数据，而调研则需要综合不同数据来源。

咱们先来看看 ChatGPT Atlas Agent 的独特作用。

我首先发出一个一般的疑问，没开 Agent 模式，在 Atlas 浏览器里，我要求「找到天津师范大学管理学院王树义近三年发表的论文，及其全部影响力数据」。

它很快检索并且给出答案。

答案如下：

Atlas 显示检索了近三年（2021—2024）的论文，但遗憾的是没有找到详细信息。它随后详细列出几篇文章。文章是对的，但影响力数据都没找到，这显然不完整。

下面咱们开启 Agent 功能，问题不变，再执行。

这次你会发现，它思考更缜密，然后开始以不同的关键词组合搜集网页，并且逐一分析。

ChatGPT Atlas Agent 一共执行了 2 分钟，给出了详细的结果。反馈的结果包括标题、发表时间、期刊、研究主题汇总、引用量、阅读量、下载量等数据。

从 2024 年的《知识工作者 AI 素养差距的 AI 技术弥补手段研究》一直看下来，都有相应的影响力数据。

例如《AIGC 时代的科研工作流：协同与 AI 赋能视角下的数字学术工具应用及其未来》一文，维普上显示被引 28 次，阅读量 6,110。

《ChatGPT 给科研工作者带来的机遇与挑战》这篇论文，维普显示被引量 176 次。

不过这里的引用量统计口径似乎与 CNKI（中国知网）不太一样。CNKI 上这篇现在标记引用量为 205 次，二者相差几十次。

由于不同平台涵盖的论文范围不同，统计数量存在偏差。

但我发现统计结果有明显遗漏。我询问的是近三年的论文，但我在《图书情报知识》2025 年第 4 期发表的《生成式 AI 搜索引擎人机结合的选题思路拓展研究》却未被计入。

我开始思考问题出在哪里。仔细一看，发现 ChatGPT Atlas Agent 说最近三年是「2022—2024」。等等，为什么截止到 2024？为什么不检索 2025 年的论文？

我突然想明白，可能因为模型的预训练数据截止于 2024 年，它将 2024 年视为当前年份。

解决方案也很简单直接 —— 我告诉它今天是 2025 年 10 月 23 日，然后让它再去找。

经过约三分钟的处理，ChatGPT Atlas Agent 将 2025 年的这篇论文纳入了结果。

不过这次 ChatGPT Atlas Agent 不再使用维普平台的引用次数，而转为使用了 Google Scholar（谷歌学术），这导致统计口径差距进一步扩大。

看来 ChatGPT Atlas Agent 在调研结果的稳定性方面还有改进空间。

小结

本文我为你介绍了 ChatGPT Atlas Agent 在数据采集和综合调研方面，可以给非技术人员带来的帮助。对数据科学、信息资源管理甚至计算机专业的学生而言，这项技术并不新鲜，因为自己写个小脚本就能跑出来；但对文科专业的学生来说，这一工具的价值则更为显著。因为它不需要你从头学习编程和爬虫等技术，却能在大量应用场景下获得一样的结果。

目前 ChatGPT Atlas Agent 还存在一些问题。例如对于爬虫防范水平较高的网站，它会知难而退。所以你会看到，它反馈的所有结果中都没有中国知网（CNKI）的数据。

因此在使用时需要注意可能存在的数据缺失。千万不要以为反馈回来的数据就是全部。还要注意调研结果的不稳定性，特别是需要明确限定数据来源。因为 CNKI、维普和 Google Scholar 的统计口径不同，结果差异较大。还有别忘了时间日期的矫正，查询近期数据时尤其如此，因为用户操作时间可能晚于模型的知识截止日期。

目前 Atlas 浏览器免费使用，但 Agent 功能需要付费订阅。好在 OpenAI 已指明方向，相信不久后会有众多类似产品跟进。届时普通用户的选择空间会更大。

祝 AI 辅助数据采集愉快！

如果你觉得本文有用，请点击文章底部的「推荐到博客首页」按钮。

如果本文可能对你的朋友有帮助，请转发给他们。

欢迎关注我的专栏，以便及时收到后续的更新内容。

延伸阅读

转载本文请联系原作者获取授权，同时请注明本文来自王树义科学网博客。

链接地址：https://wap.sciencenet.cn/blog-377709-1507379.html?mobile=1

收藏

当前推荐数：2

推荐人：

郑永军崔锦华

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录

确定删除指定的回复吗？

确定删除本博文吗？