CognitiveKernel-Launchpad: 5 分钟,我搭出了自己的第一个 AI Agent - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
charslee013
V2EX    分享发现

CognitiveKernel-Launchpad: 5 分钟,我搭出了自己的第一个 AI Agent

  •  
  •   charslee013 27 天前 825 次点击

    CognitiveKernel-Launchpad:5 分钟,我搭出了自己的第一个 AI Agent

    前几天试了下 OpenAI 的 Deep Research ,有点意思。

    输入一个问题,它自己上网查资料、读 PDF 、对比观点、整理结构,最后给我一份研究报告。我当时就想:这玩意儿比我写论文还认真。

    后来又看到 Manus ,能拆解任务、调用工具、自动执行。我就想:要是我也有个这样的"数字员工"就好了。

    问题是它们都闭源。我只能用,不能改。作为一个 AI Agent 新手,我想自己搭一个,哪怕简单点,至少我能改、我能学、我能折腾

    然后我就开始找开源项目。在 GitHub 上翻到了腾讯的 CognitiveKernel-Pro 多步推理、网页搜索、文件解析,看起来挺合适。

    结果一试……直接懵了。

    项目太全了 推理、训练、测试一大堆,依赖复杂,配置文件一堆,光跑个 demo 就搞了一天。我又不需要训练,就想让它能查资料、读文档、写个报告。

    所以我自己改了。

    把训练、SFT 、测试那些东西全砍了,只留核心的推理功能 让 Agent 能想、能搜、能读文件、能出结果。

    这就是 CognitiveKernel-Launchpad 给新手用的"AI Agent 启动包"。

    它能干嘛?(也就是我最想要的功能)

    • 多步推理:基于 ReAct 框架,让它"想一步、做一步、再想一步"
    • 自动搜网页:内置搜索引擎,像 Deep Research 一样主动找资料
    • 跑评测不费劲:内置 GAIA 基准,方便我验证它到底有没有变聪明
    • 一键启动 Web UI:Gradio 搞定,本地打开浏览器就能玩,不用写前端

    适合谁?

    就是我这样的你

    • 想亲手搭一个"本地版 Deep Research / Manus"的初学者
    • 不想被训练流程劝退,只想先跑通推理流程的小白
    • 想快速验证 Agent 想法、做 POC 、搞教学演示的开发者/学生
    • 喜欢"改源码 + 看效果"的动手派

    5 分钟,你就能拥有一个会思考、会搜索、会读文件的 AI Agent 。

    两种体验方式

    方式一:在线演示

    无需本地环境配置,可直接体验完整功能:

    在线版本提供完整的 Agent 推理过程展示和结果输出。

    界面预览:

    Gradio Web 界面演示

    方式二:本地部署

    1. 安装

    git clone https://github.com/charSLee013/CognitiveKernel-Launchpad.git cd CognitiveKernel-Launchpad python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate pip install -r requirements.txt 

    2. 安装浏览器(必需)

    python -m playwright install chrome --with-deps 

    <sub>Web Agent 需要真实浏览器来访问网页和下载文件,这一步不能跳过</sub>

    3. 环境设置(最小配置)

    export OPENAI_API_KEY="sk-..." export OPENAI_API_BASE="https://api.openai.com/v1" export OPENAI_API_MODEL="gpt-4o-mini" 

    4. 运行单个问题

    python -m ck_pro "法国的首都是什么?" 

    完成!你的 AI Agent 跑起来了。

    5. 启动 Web 界面

    python -m ck_pro.gradio_app --host 0.0.0.0 --port 7860 

    → 在浏览器中打开 http://localhost:7860

    来源与致谢:本项目为基于腾讯开源项目 https://github.com/Tencent/CognitiveKernel-Pro 的研究用分支,聚焦"推理时"能力。仅限学术研究与教学使用,禁止商用。

    使用场景示例

    场景一:技术趋势调研

    python -m ck_pro "帮我调研 2024 年大模型的主要发展趋势,包括技术突破和市场动态" 

    Agent 执行流程:搜索相关资料 → 访问权威网站 → 提取关键信息 → 生成结构化报告。


    场景二:文档资料整理

    python -m ck_pro "帮我收集 AI 发展历史的关键资料,并整理成文章大纲" 

    Agent 执行流程:搜索相关文献 → 提取重要时间节点和技术突破 → 按逻辑顺序组织内容。

    场景三:技术学习指导

    python -m ck_pro "帮我整理 TensorFlow 的入门教程和最佳实践" 

    Agent 执行流程:访问官方文档 → 收集社区教程 → 提取核心概念和代码示例。


    场景四:企业信息分析

    python -m ck_pro "详细分析傲基股份有限公司的业务,技术等等" 

    执行流程

    1. 智能规划阶段

      Agent 自动生成任务计划: 网络搜索收集公司基础信息 识别并下载官方 IPO 文档 分析文档提取关键信息 
    2. 信息搜集与识别

      发现 6 个相关搜索结果,包括: 傲基(深圳)跨境商务股份有限公司 IPO 文档 香港上市发展概览(确认为科技赋能数据驱动平台) Aukey E-Business 公司信息(合作伙伴:Google 、eBay 、PayPal 、UPS 、DHL ) 
    3. 文档获取与处理

      Web Agent 执行流程: Action=goto → Action=save → Save Succeed: ./aoji_ipo.pdf 
    4. 智能适应与恢复

      遇到文件访问限制时,系统自动切换策略: 检测到文件分析不可用 回退到基于已收集信息的 LLM 分析 生成结构化企业分析报告 
    5. 最终输出

      生成 5 个维度的企业分析: 商业模式 产品线 技术基础设施 市场覆盖 创新策略 

    命令行功能

    python -m ck_pro \ --config config.toml \ --input questions.txt \ --output answers.txt \ --interactive \ --verbose 
    参数 描述
    -c, --config TOML 配置文件路径(默认:config.toml )
    -i, --input 批量输入文件(每行一个问题)
    -o, --output 输出答案到文件( JSON 格式)
    --interactive 启动交互式问答会话
    -v, --verbose 显示推理步骤和计时信息
    --max-steps 最大推理步数(覆盖配置文件)
    --timeout 超时时间(秒,覆盖配置文件)

    GAIA 基准评估

    什么是 GAIA ? GAIA ( General AI Assistants )是一个专门评估通用 AI 助手能力的基准测试,由 Meta 、Hugging Face 等机构联合开发。它包含 466 个真实世界的问题,需要 AI 系统具备推理、多模态处理、网页浏览、工具使用等综合能力。

    为什么选择 GAIA ? 与其他基准不同,GAIA 的问题对人类来说概念简单(人类正确率 92%),但对 AI 极具挑战性( GPT-4 + 插件仅 15%)。这正好验证了我们项目的核心价值:构建真正实用的 AI Agent 。

    数据准备: 首先到 GAIA 数据集 下载 metadata.jsonl 文件。

    运行评估:

    python -m gaia.cli.simple_validate \ --data metadata.jsonl \ --level all \ --count 10 \ --output results.jsonl 
    参数 描述
    --data GAIA metadata.jsonl 文件路径(必需)
    --level 难度级别过滤( 1/2/3/all ,默认:all )
    --count 最大任务数量( 0=无限制,默认:0 )
    --output 结果输出文件(默认:output/results_时间戳.jsonl )

    → 输出详细的性能摘要和每个任务的结果,帮你了解 Agent 的真实能力水平。


    项目信息

    项目地址: https://github.com/charSLee013/CognitiveKernel-Launchpad

    在线体验:

    感谢: 本项目基于腾讯开源的 CognitiveKernel-Pro 构建,仅限学术研究与教学使用。

    建议从在线演示开始体验,了解 Agent 的基本工作流程,然后根据需要进行本地部署和定制开发。

    2 条回复    2025-09-16 20:59:01 +08:00
    setname
        1
    setname  
       27 天前
    有点意思
    L5411
        2
    L5411  
       27 天前
    star 了,学习一下
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     959 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 21ms UTC 19:20 PVG 03:20 LAX 12:20 JFK 15:20
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86