V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

CognitiveKernel-Launchpad：5 分钟，我搭出了自己的第一个 AI Agent

前几天试了下 OpenAI 的 Deep Research ，有点意思。

输入一个问题，它自己上网查资料、读 PDF 、对比观点、整理结构，最后给我一份研究报告。我当时就想：这玩意儿比我写论文还认真。

后来又看到 Manus ，能拆解任务、调用工具、自动执行。我就想：要是我也有个这样的"数字员工"就好了。

问题是它们都闭源。我只能用，不能改。作为一个 AI Agent 新手，我想自己搭一个，哪怕简单点，至少我能改、我能学、我能折腾。

然后我就开始找开源项目。在 GitHub 上翻到了腾讯的 CognitiveKernel-Pro 多步推理、网页搜索、文件解析，看起来挺合适。

结果一试……直接懵了。

项目太全了推理、训练、测试一大堆，依赖复杂，配置文件一堆，光跑个 demo 就搞了一天。我又不需要训练，就想让它能查资料、读文档、写个报告。

所以我自己改了。

把训练、SFT 、测试那些东西全砍了，只留核心的推理功能让 Agent 能想、能搜、能读文件、能出结果。

这就是 CognitiveKernel-Launchpad 给新手用的"AI Agent 启动包"。

它能干嘛？（也就是我最想要的功能）

多步推理：基于 ReAct 框架，让它"想一步、做一步、再想一步"
自动搜网页：内置搜索引擎，像 Deep Research 一样主动找资料
跑评测不费劲：内置 GAIA 基准，方便我验证它到底有没有变聪明
一键启动 Web UI：Gradio 搞定，本地打开浏览器就能玩，不用写前端

适合谁？

就是我这样的你

想亲手搭一个"本地版 Deep Research / Manus"的初学者
不想被训练流程劝退，只想先跑通推理流程的小白
想快速验证 Agent 想法、做 POC 、搞教学演示的开发者/学生
喜欢"改源码 + 看效果"的动手派

5 分钟，你就能拥有一个会思考、会搜索、会读文件的 AI Agent 。

两种体验方式

方式一：在线演示

无需本地环境配置，可直接体验完整功能：

ModelScope: https://www.modelscope.cn/studios/mirror013/CognitiveKernel-Launchpad/summary
Hugging Face: https://huggingface.co/spaces/Chars/CognitiveKernel-Launchpad

在线版本提供完整的 Agent 推理过程展示和结果输出。

界面预览：

Gradio Web 界面演示

方式二：本地部署

1. 安装

git clone https://github.com/charSLee013/CognitiveKernel-Launchpad.git cd CognitiveKernel-Launchpad python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate pip install -r requirements.txt

2. 安装浏览器（必需）

python -m playwright install chrome --with-deps

<sub>Web Agent 需要真实浏览器来访问网页和下载文件，这一步不能跳过</sub>

3. 环境设置（最小配置）

export OPENAI_API_KEY="sk-..." export OPENAI_API_BASE="https://api.openai.com/v1" export OPENAI_API_MODEL="gpt-4o-mini"

4. 运行单个问题

python -m ck_pro "法国的首都是什么？"

完成！你的 AI Agent 跑起来了。

5. 启动 Web 界面

python -m ck_pro.gradio_app --host 0.0.0.0 --port 7860

→ 在浏览器中打开 http://localhost:7860

来源与致谢：本项目为基于腾讯开源项目 https://github.com/Tencent/CognitiveKernel-Pro 的研究用分支，聚焦"推理时"能力。仅限学术研究与教学使用，禁止商用。

使用场景示例

场景一：技术趋势调研

python -m ck_pro "帮我调研 2024 年大模型的主要发展趋势，包括技术突破和市场动态"

Agent 执行流程：搜索相关资料 → 访问权威网站 → 提取关键信息 → 生成结构化报告。

场景二：文档资料整理

python -m ck_pro "帮我收集 AI 发展历史的关键资料，并整理成文章大纲"

Agent 执行流程：搜索相关文献 → 提取重要时间节点和技术突破 → 按逻辑顺序组织内容。

场景三：技术学习指导

python -m ck_pro "帮我整理 TensorFlow 的入门教程和最佳实践"

Agent 执行流程：访问官方文档 → 收集社区教程 → 提取核心概念和代码示例。

场景四：企业信息分析

python -m ck_pro "详细分析傲基股份有限公司的业务，技术等等"

执行流程：

智能规划阶段

Agent 自动生成任务计划： 网络搜索收集公司基础信息 识别并下载官方 IPO 文档 分析文档提取关键信息

信息搜集与识别

发现 6 个相关搜索结果，包括： 傲基（深圳）跨境商务股份有限公司 IPO 文档 香港上市发展概览（确认为科技赋能数据驱动平台） Aukey E-Business 公司信息（合作伙伴：Google 、eBay 、PayPal 、UPS 、DHL ）

文档获取与处理

Web Agent 执行流程： Action=goto → Action=save → Save Succeed: ./aoji_ipo.pdf

智能适应与恢复

遇到文件访问限制时，系统自动切换策略： 检测到文件分析不可用 回退到基于已收集信息的 LLM 分析 生成结构化企业分析报告

最终输出

生成 5 个维度的企业分析： 商业模式 产品线 技术基础设施 市场覆盖 创新策略

命令行功能

python -m ck_pro \ --config config.toml \ --input questions.txt \ --output answers.txt \ --interactive \ --verbose

参数	描述
`-c, --config`	TOML 配置文件路径（默认：config.toml ）
`-i, --input`	批量输入文件（每行一个问题）
`-o, --output`	输出答案到文件（ JSON 格式）
`--interactive`	启动交互式问答会话
`-v, --verbose`	显示推理步骤和计时信息
`--max-steps`	最大推理步数（覆盖配置文件）
`--timeout`	超时时间（秒，覆盖配置文件）

GAIA 基准评估

什么是 GAIA ？ GAIA （ General AI Assistants ）是一个专门评估通用 AI 助手能力的基准测试，由 Meta 、Hugging Face 等机构联合开发。它包含 466 个真实世界的问题，需要 AI 系统具备推理、多模态处理、网页浏览、工具使用等综合能力。

为什么选择 GAIA ？ 与其他基准不同，GAIA 的问题对人类来说概念简单（人类正确率 92%），但对 AI 极具挑战性（ GPT-4 + 插件仅 15%）。这正好验证了我们项目的核心价值：构建真正实用的 AI Agent 。

数据准备： 首先到 GAIA 数据集下载 metadata.jsonl 文件。

运行评估：

python -m gaia.cli.simple_validate \ --data metadata.jsonl \ --level all \ --count 10 \ --output results.jsonl

参数	描述
`--data`	GAIA metadata.jsonl 文件路径（必需）
`--level`	难度级别过滤（ 1/2/3/all ，默认：all ）
`--count`	最大任务数量（ 0=无限制，默认：0 ）
`--output`	结果输出文件（默认：output/results_时间戳.jsonl ）