科技

Gemini 的新功能，搞笑狮子漂移（动态视图）

2025-11-21T01:43:16Z

可圈可点的功能。

厉害之处在于融入了物理学规律（爬 wiki 数据）

不足也很明显，该功能仍在初级阶段，期待后续。

有想体验的佬，点下方链接。

Google Antigravity 出来啦

2025-11-19T01:55:05Z

google antigravity, 免费可以用 Gemini 3 Pro 、Claude Sonnet 4.5,大家有试过怎么样嘛，这也太壕了

一觉醒来， G 老师 3 Pro 已经可以用了,起飞

2025-11-19T00:59:50Z

官方链接镇楼，需要的佬自取：

https://blog.google/products/gemini/gemini-3/#plan-anything

https://gemini.google.com/app/

AI 时代，每个月会在 AI 产品上花多少钱？

2025-11-07T06:13:40Z

因为我是做开发的，氪过也白嫖过，

目前稳定在 AI 产品上的就是，

ChatGPT $20
Claude $20

其他比如 cursor 买过一年都放弃了…

大伙们，请教一下智能手表的问题，打算买

2025-10-16T13:01:30Z

amazfit 的手表说是可以用 js 开发小程序，要是开发自己用的小程序，需要审核的吗？
还有哪些牌子手表还支持 js 小程序呢？

现在机器之心需要订阅才能看历史文章，有没有替代平台啊

2025-09-28T08:08:25Z

最近发现机器之心的新闻需要订阅才能看过往新闻了，现在还有没有免费的平替资讯平台

西安有哪些做 OCR 做的比较好的企业啊，有项目需要合作

2025-08-22T02:03:44Z

西安有哪些做 OCR 做的比较好的企业啊，有项目需要合作有意的可以聊聊

请教一下这个 h5 跳到公众号页面流程是怎么实现的

2025-08-18T09:10:37Z

1. app 点下单，这一步点击之后应该是请求了某个接口然后生成了一个跳转的 url 地址，
![pB4gA.jpeg]( https://i.imgs.ovh/2025/08/18/pB4gA.jpeg)

2. 跳转到 h5 ，这一步应该是自动跳转的
![pBtUU.jpeg]( https://i.imgs.ovh/2025/08/18/pBtUU.jpeg)

3. 然后拉起到对话框，对话框自动发送订单消息，这一步又是咋实现的
![pBd3H.jpeg]( https://i.imgs.ovh/2025/08/18/pBd3H.jpeg)
![pBd3H.jpeg]( https://i.imgs.ovh/2025/08/18/pBd3H.jpeg)

5. 微信内支付
![pBEYN.jpeg]( https://i.imgs.ovh/2025/08/18/pBEYN.jpeg)

影石今晚发布全景无人机，看了视频感觉不错、后期可选视角，有玩无人机比较专业的佬吗？你们玩机的注重点是什么？

2025-08-14T06:16:07Z

trae 偷我两天 pro

2025-08-12T03:49:48Z

emby 网盘服的搭建以及关于更优方案的探讨

2025-07-25T03:01:22Z

1 原理

这个方案利用 emby 支持 strm 文件可以快速入库，切通过 openlist 等支持网盘的 302 重定向，实现快速起播，以下内容中提到的所有工具均为开源项目，当然也有其他可选的工具替代，例如 cd2 可以用 rclone 替代，auto_symlink 可以用其他 strm 工具替代，emby2alist 可以用 go-emby2openlist 替代等。(同时也推荐使用 auto_symlink 作者的 symedia 和 fastemby 项目)

2 关于更优方案的讨论

2.1 115 网盘 302 风控/封号

目前已知 115 网盘在多个地区或超过一定连接数使用 302 重定向可能会触发风控，想请问下各位是否有更好的解决方案，如是否可以做多网盘资源的负载均衡(也可以推荐相应的 vps 走代理的方式)

3 openlist

3.1 作用

网盘挂载，可通过 webdav 的方式访问
网盘 302 重定向

3.2 docker 部署

mkdir -p /media/docker/alist docker run -d \ --restart=always \ -p 5244:5244 \ -p 6801:6800 \ -e PUID=0 \ -e PGID=0 \ -e UMASK=022 \ --name=openlist \ -e TZ=Asia/Shanghai \ openlistteam/openlist:beta

4 cd2

4.1 作用

网盘挂载，可通过本地映射路径访问(这里也可以用 rclone ，但是据其他博主说 rclone 的速度会比 cd2 慢)
套娃挂载 alist 的 webdav ，以支持 cd2 暂不支持的网盘(如夸克网盘等)

4.2 docker 部署

注意点：这里映射了两个媒体目录，一个是cloud_media，一个是webdav_media。

cloud_media用于挂载支持 302 重定向的网盘，如 115 ，天翼等；
webdav_media用于挂载如夸克网盘等；

部署前请确认 docker 已开启 MountFlags

version: '3' services: clouddrive: image: cloudnas/clouddrive2 container_name: clouddrive restart: unless-stopped environment: - CLOUDDRIVE_HOME=/Config volumes: - /volume2/Media/mp_downloads:/CloudNAS:shared - /volume2/Media/cloud_media:/media:shared - /volume2/Media/webdav_media:/webdav_media:shared - /volume1/docker_dir/clouddrive2:/Config ports: - "8097:19798" pid: "host" privileged: true devices: - /dev/fuse:/dev/fuse

4.3 针对 115 风控的配置

5 auto_symlink

5.1 作用

5.2 docker 部署

需注意：

volume 内的宿主机和容器路径最好一一对应，否则可能出现 emby 内软链接跳转失败的问题
支持 302 重定向的网盘和其他网盘的根路径要分开，否则在 emby 播放时，其他网盘的资源会无法播放

version: '3' services: auto_symlink: image: shenxianmq/auto_symlink:latest container_name: auto_symlink environment: - TZ=Asia/Shanghai volumes: - /volume2/Media/cloud_media/clouddrive:/volume2/Media/cloud_media/clouddrive:rslave # cd2 挂载目录 - /volume2/Media/webdav_media/clouddrive:/volume2/Media/webdav_media/clouddrive:rslave - /volume2/Media/strm:/volume2/Media/strm # emby 扫描媒体目录 - /volume2/Media/webdav_strm:/volume2/Media/webdav_strm - /volume1/docker_dir/auto_symlink/config:/app/config ports: - "8095:8095" user: "0:0" restart: unless-stopped

5.3 网页配置

6 emby

6.1 docker 部署

需注意：

emby 媒体库只需添加包含 strm 的相关文件夹
emby 不要开启转码

version: '3' services: emby-server: image: amilys/embyserver container_name: emby-local network_mode: bridge # DLNA and Wake-on-Lan 需要 bridge environment: - UID=0 # 设置容器用户 ID 为 0 (通常是 root) - GID=0 # 设置容器组 ID 为 0 (通常是 root) - GIDLIST=0 # 设置容器组 ID 列表为 0 - TZ=Asia/Shanghai # 设置容器的时区为亚洲/上海 devices: - /dev/dri:/dev/dri # 将主机的 /dev/dri 设备挂载到容器 开启硬解 ports: - 8096:8096 # 对外访问端口 restart: unless-stopped privileged: true volumes: - /volume1/docker_dir/emby_local/config:/config - /volume2/Media/cloud_media/clouddrive:/volume2/Media/cloud_media/clouddrive:rslave - /volume2/Media/local_media:/volume2/Media/local_media - /volume2/Media/webdav_media/clouddrive:/volume2/Media/webdav_media/clouddrive:rslave - /volume2/Media/webdav_strm:/webdav_strm # 其他网盘的 strm(夸克等) - /volume2/Media/strm:/strm # 支持 302 重定向的网盘 strm(115 ，天翼等)

7 emby2alist

7.1 作用

通过 nginx 重定向资源地址，将原先 strm 文件指向的挂载路径如/volume2/Media/cloud_media/115 直接指向 alist 路径下的/115，从而实现 302 重定向网盘资源
由于之前将两种网盘资源分开存放，这里只会匹配支持重定向网盘的根路径，其他网盘仍然会通过挂载在本地的/volume2/Media/webdav_media路径进行访问

7.2 部署

wget https://github.com/bpking1/embyExternalUrl/archive/refs/tags/v0.4.5.tar.gz tar -zxvf v0.4.5.tar.gz cd embyExternalUrl-v0.4.5/ cd emby2Alist # modify nginx/conf.d/constant.js # 参考下图 1 配置 # embyHost 如果是本地 docker 部署的，就是图中的 http://172.17.0.1:8096(端口自行确认) # modify nginx/conf.d/config/constant-mount.js # 参考下图 2 配置 # alistAddr 如果是本地 docker 部署的，就是图中的 http://172.17.0.1:5244(端口自行确认) # modify nginx/conf.d/config/constant-pro.js # 参考下图 3 配置 # 待替换路径需确认 emby 媒体库内资源路径和 alist 内的路径，填写多出来的部分(仅限支持 302 重定向的网盘资源)

nginx/conf.d/constant.js

nginx/conf.d/config/constant-mount.js

nginx/conf.d/config/constant-pro.js

7.3 常见问题

7.3.1 115 资源无法播放

nginx-emby 容器内日志如下：

[warn] 21#21: *155 js: redirect to: /d/115/xxx

7.3.1.1 原因

匹配到 emby2alist 里的 115 规则，并使用 alist 公网地址进行转发

7.3.1.2 临时解决方案

屏蔽位于constant-mount.js内clientSelfAlistRule中与 115 有关的规则

7.3.2 新增网盘后 emby 无法播放

问题描述：在上面的环境正常运转的情况下(emby 启动后)，新增了一个夸克盘通过alist -> cd2挂载到本地目录/volume2/Media/webdav_media，可以正常生成新的 strm 文件，emby 也可以正常入库，但是无法播放，并提示无兼容的流。此时在 emby 中查看挂载在 emby 容器上的/volume2/Media/webdav_media路径，里面的夸克盘路径下是没有东西的

复现方式：

在 cd2 内卸载之前的夸克盘挂载
去 emby 内看路径/volume2/Media/webdav_media下是否已经没有文件夹
在 cd2 内重新挂载夸克盘
去 emby 内确认路径/volume2/Media/webdav_media下是否虽然有夸克盘的目录，但里面没东西

7.3.2.1 原因

这是因为在之前的步骤中，emby 容器配置中与网盘相关的路径映射如cloud_media, webdav_media没有开启 rslave 模式，现已修正

7.3.2.2 解决方案

emby 容器与网盘相关的路径挂载时开启 rslave 模式，详见 4.1

以下操作可保留原先所有配置和刮削记录

# add :rslave to docker-compose.yml 按照 4.1emby 部署的 compose 文件更改 docker stop emby_container # emby_container 替换成自己的容器名 docker rm emby_container # emby_container 替换成自己的容器名 docker-compose up -d # 重新部署

7.3.3 emby 提示无兼容的流

7.3.3.1 原因

该问题一般由指定路径下的文件不存在引起，可以检查下网盘是否正确挂载

参考教程：

url: https://www.nerocats.com/archives/58/ title: "alist-clouddrive2-auto_symlink-emby-nginx 实现 emby 播放 115 直链 - 偏爱一丛花" description: "完成效果：1. moviepilot 下载目录(可以不用) 如：/media/docker/moviepilot/downloads2. moviepilot 整理后的媒体库目录，同时也是 cd2..." host: www.nerocats.com favicon: https://www.nerocats.com/usr/uploads/logo/favicon.ico

纯技术讨论，有没有详细讲解 GFW 实现原理的博客或者视频

2025-07-18T07:28:39Z

看过一些讲解，都是只是泛泛说一下底层理论原理，但是总有一些实际中遇到的情况无法用通用原理解释。有没有那种深入浅出详细剖析技术实现的，想学习一下。

免责声明：仅为学术研究，请勿扩大化联想。

手游自动化脚本

2025-07-07T09:17:43Z

请问各位，现在手游如果想自动化完成日常的话，是否有成熟的框架可以用，来编写代码？基本上需求就是能识别图像，定位按钮，然后写一套日常完成的逻辑。使用的是安卓模拟器，最好能支持后台运行。

开源反编译器支持 dex/apk

2025-07-02T15:48:09Z

距离上次发帖一个月了，最近把 apk 和 dex 也支持了。

有些人问为啥叫"garlic", 这个名字来自郭德纲的相声：喝咖啡高雅，吃大蒜低俗，java class 文件以 CAFEBABE 开始，所以起了一个恶搞的名字garlic， 咖啡就着大蒜，高雅又低俗。

经过一个月的开发，garlic反编译器支持了 apk 和 dex 。apk 的 Manifest 和资源文件没有解析，只反编译了里面的代码。

顺带写了些其它的东西：

c#的 pe 文件解析，没有解析到字节码的部分，还在读微软的文档。
elf 文件解析，写完了解析 sections ，还有不少没弄，一边查资料，一边写。

我测试过的 apk （豌豆荚下载的最新版）：

acfun
微信
抖音/抖音极速版
百度
百度地图
滴滴
bilibili
爱奇艺
京东
快手
美团
陌陌
阿里系的 app

速度方面，抖音的体量最大，差不多有 44w 个 class ，处理完需要 30 秒，我的机器是 macmini m4

~/workspace/clang/decompiler-garlic/build $ time -v ./garlic ~/workspace/java/bytecode/apks/douyin.apk [Garlic] APK file analysis File : /Users/xxx/workspace/java/bytecode/apks/douyin.apk Save to : /Users/xxx/workspace/java/bytecode/apks/douyin_apk Thread : 4 Progress : 446075 (446075) [Done] Command being timed: "./garlic /Users/xxx/workspace/java/bytecode/apks/douyin.apk" User time (seconds): 84.91 System time (seconds): 27.90 Percent of CPU this job got: 372% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:30.28 Average shared text size (kbytes): 0 Average unshared data size (kbytes): 0 Average stack size (kbytes): 0 Average total size (kbytes): 0 Maximum resident set size (kbytes): 1725728 Average resident set size (kbytes): 0 Major (requiring I/O) page faults: 3 Minor (reclaiming a frame) page faults: 156943 Voluntary context switches: 25062 Involuntary context switches: 708980 Swaps: 0 File system inputs: 0 File system outputs: 0 Socket messages sent: 0 Socket messages received: 0 Signals delivered: 0 Page size (bytes): 16384 Exit status: 0

有朋友问我到底想搞一个什么样的东西出来，我总吹牛逼说我要搞一个 c 语言写的jeb出来。

后来看了好多 apk ，又想支持 lua ，又想支持 C#，我现在想吹牛逼我想搞个大而全的东西出来，能反编译所有 apk 。

回过头看写出来的东西，一堆一堆待解决的问题和完全未知的领域，真他娘的不知天高地厚了。

还是欢迎大家试用，欢迎大家提意见，欢迎 PR ，欢迎提 bug

怪不得抖音上擦边的律师越来越多了

2025-07-02T09:39:08Z

人工智能终结计费小时制——大型律所收入受冲击
https://www.1ccf.com/archives/1751448920723

人类在劳动密集型工作中优势越来越弱了

2025-07-01T03:57:48Z

亚马逊即将实现仓库中机器人数量超过人类员工
https://www.1ccf.com/archives/1751342106258

小红书可以进入开发者模式？

2025-06-19T02:18:28Z

清理用户数据，重新进入 APP 。然后在小红书 App 「设置」页标题处连续点按 6 次，随后在弹出的对话框中输入弱口令 xhsdev 即可进入隐藏的开发者模式。

使用 OCR 和 LLM 解决实际问题---录屏题目摘录

2025-06-16T10:43:27Z

1. 要求:

将提供的 Android 录屏视频中出现的题目选项解析摘录, 一共 755 个题目输出到一个完整的 Docx 文档中. 如有公式, 则应当以公式格式呈现. 其他干扰信息, 如 DeepSeek 广告等不应出现在解析中. 示例界面:

视频中存在部分干扰, 如通知消息和界面动画滑动:

2. 思路

本质上是一个 OCR+结构化提取并输出的过程, 本质上并无太大难度. 难点在于如何提取视频题目帧和结构化的输出. 至于部分干扰(如遮挡等)则可不处理, 由后续对方人工按帧校对.

我的思路如下:

读取每帧的画面, 并按前后帧相似度决定是否为稳定帧. 为了速度, 我们可以初步计算每个题目稳定帧之间的帧间隔, 以此为单位进行比较. 除此之外还可以事先截去状态栏和底部导航栏.
使用 OCR 对提取的每帧画面进行识别, 我们可以先只保存所有的文字, 后续再处理.
- 当然, 部分 OCR 程序是支持位置识别的, 我们只需要识别"单选", "多选"等字样就知道题目, 下面部分就是选项. 知道"解析"两个字的位置, 下面的部分自然是解析部分. 我们先不设计这种方式.
对识别到的文字进行粗略的清洗, 移去明显的广告词和干扰.
使用 LLM 进行结构化提取和输出, 为了保障结构化, 需要使用支持instruct的模型. 对不稳定的模型输出, 自己实现结构化提取是一件很恼火的事情...
根据模板, 构造 docx 文档.

3. 选型和实现

在下面给出的实现中, 为了保障观感去掉了一些错误处理和判断.

3.1 关键帧提取

import cv2 import os from skimage.metrics import structural_similarity as ssim def extract_static_frames(video_path, output_dir, threshold=0.99): top_crop = 200 bottom_crop = 250 skip_frames = 6 # 每处理一次跳过的帧数 cap = cv2.VideoCapture(video_path) success, prev_frame = cap.read() prev_frame = prev_frame[top_crop:-bottom_crop, :] frame_id = 0 saved_count = 0 while True: success, frame = cap.read() frame = frame[top_crop:-bottom_crop, :] # 转为灰度图做 SSIM gray_prev = cv2.cvtColor(prev_frame, cv2.COLOR_BGR2GRAY) gray_curr = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) score, _ = ssim(gray_prev, gray_curr, full=True) if score > threshold: saved_path = os.path.join(output_dir, f"frame_{frame_id}.jpg") cv2.imwrite(saved_path, prev_frame) saved_count += 1 # 跳过接下来的几帧 for _ in range(skip_frames): cap.read() frame_id += 1 prev_frame = frame frame_id += 1 cap.release() print(f"Saved {saved_count} static frames to: {output_dir}")

对于输入格式为1080x2340@13.88fps 23min共 19154 帧的视频,使用 5800H 需要约 7 分钟处理完成, 最终共保存 855 帧, 基本可以做到一个题目一帧. 有精力的话可以人工从中去掉一些明显不正确的帧, 没有的话后续进行 OCR 时可进行判断.

3.2 OCR

这里我选用paddleocr来做文字识别, 不得不说即开源准确又高的东西还是非常有优势的. 它也能对中英文和公式有较好的识别率. 要识别的界面较为规整, 提取到的文字按行读取即可.

我们首先要采取一个样品, 交由大语言模型生成判断是否是题目的标志question_mark和无用的信息标志useless_mark. 之后就是简单的判断和保存了. 这一步同样不需要做的十分完美. 如下为 OCR 得到的文字样品:

< 0 答题 背题 语音 单选 6 、轻型无人机是指 质量大于 7 千克，但小于等于 116 千克 的无人机，且全马力平飞中，校正空 A 速大于 100 千米/小时(55 海里/小 时），升限大于 3000 米 质量大于等于 7 千克，但小于 116 千克 的无人机，且全马力平飞中，校正空 B 速小于 100 千米/小时（ 55 海里/小 时），升限小于 3000 米 空机质量大于 7 千克，但小于等于 116 千克的无人机，且全马力平飞中，校 正空速小于 100 千米/小时 (55 海里/ 小时），升限小于 3000 米 答案 c 试题详解 试题纠错 解析 该题关键点在于空机质量。参考 R1 的重量分 类，微型 0大型 5700kg 。 755 收藏 答题卡

实现:

def ocr_images_to_markdown(image_dir, output_dir): os.makedirs(output_dir, exist_ok=True) for fname in os.listdir(image_dir): isquestion = False question_mark = ["单选", "判断", "多选"] useless_mark = ["背题", "背题", "语音", "统计", "概述", "来", "难", "度", "使用 DeepSeek ，获取深度思考过程。", "试题详解", "试题纠错", "答题", "背题", "语音", "755"] image_path = os.path.join(image_dir, fname) md_path = os.path.join(output_dir, fname.replace(".jpg", ".md")) result_text = ocr.predict(image_path)[0]['rec_texts'] lines = [] for line in result_text: l = str(line).strip() if l in useless_mark: continue if l in question_mark: # 只有有该行的才视为一个正确的问题帧 isquestion = True lines.append(l) with open(md_path, "w", encoding="utf-8") as f: f.write("\n".join(lines)) print(f"已提取并保存到 {md_path}")

经过处理后, 总共剩余 780 个帧. 这个结果已经足够好了, 钱不够的情况下怎么可能再人工处理呢?

3.3 LLM 处理结构化

对于给钱不够的情况下是不可能使用参数量过大的模型的. 这里我们采用qwen2.5:7b, 由搭载ollama的笔记本就可以运行.

作为小模型的参数量摆在那, 并且计算性能有限, 因而我们输入给他的提示词和用户输入需要尽量精简, 这也是为什么前面要粗略过滤一遍.

为了保障结构化, 我们需要使用第三方库instructor, 使用上十分简单, 我们只需要使用pydantic定义一个回答类即可. instructor的使用能够保障模型的输出格式正确, 但是代价为一定的模型性能下降.

class Answer(BaseModel): options: dict = Field(..., description="题目选项") ## 顺序很重要!! question: str = Field(..., description="题目内容") explanation: str = Field(..., description="题目解析") @field_validator('options') def options_should_have_at_least_two_keys(cls, v): if not all(k in v for k in ["A", "B"]): raise ValueError("选项内容必须包含 A, B 两个选项") return v @field_validator('options') def options_should_not_be_empty(cls, v): if any(not v.get(k) for k in ["A", "B"]): raise ValueError("选项内容不能有空值") return v class Config: json_schema_extra = { "example": { "question": "微型无人机是指？", "options": { "A": "质量小于 7 千克的无人机。", "B": "质量小于等于 7 千克的无人机。", "C": "空机质量小于等于 7 千克的无人机。" }, "explanation": "该题关键点在于空机质量。参考 R1 的质量分类，微型 0大型 5700kg 。。" } }

在使用instructor时, 有一点需要注意: 定义的 Class 类的顺序很重要, 以 3.2 的示例样本为例, 如果按 question -> options -> explanation 的顺序定义类, 模型的输出顺序自然也会按照其进行.

那么, 模型的输出大概率就会变为:

题目: 大型无人机是指空机质量大于 5700kg 的无人机. 选项: A: 空机质量大于 5700kg 的无人机 B: 质量大于 5700kg 的无人机 C: 空机质量大于等于 5700kg 的无人机 解析: 该题关键点在于空机质量。参考 R1 的重量分 类，微型 0大型 5700kg 。

即便调整提示词也没有作用(如下第一和第二点). 但是按照先 options 再 question 的顺序进行模型就几乎不会出现此问题.

提示词:

system_prompt = """你是一名熟悉考试题目的内容结构化助手。 你需要将用户提供的原始 OCR 文本内容，进行结构化提取，并输出为需要的结构： - 一共三个部分: 题目, 选项, 解析. 正确分辨题目, 选项, 解析内容. - 题目内容中不应包含选项, 题目应当是个问句或需要填空回答的陈述句。 - 两个或三个选项, 分别是 A, B, C. - 保留数学公式，尽量用 LaTeX 格式（如 $x^2 + y^2 = r^2$） - 解析中, 去除无用内容, 如 DeepSeek 成绩 作答等. """

在使用大语言模型进行工程实践时, 顺序和提示词非常重要, 需要反复修改才可达到理想的效果. 在这个调试过程中建议使用如W&B等平台进行记录.

实现:

def process_all_ocr_markdown(input_dir, output_dir, model="qwen2.5:7b"): os.makedirs(output_dir, exist_ok=True) client = instructor.from_openai( OpenAI(base_url="http://localhost:11434/v1",api_key="ollama",),mode=instructor.Mode.JSON,) for fname in os.listdir(input_dir): parsed_text = parse_markdown_file(os.path.join(input_dir, fname)) refined = ollama_structured(client, parsed_text, model=model) question_str = f"题目: {refined.question}" options_str = "\n".join([f"{k}. {v}" for k, v in refined.options.items()]) explanation_str = f"解析: {refined.explanation}".replace("\n", "") refined_md = f"{question_str}\n 选项:\n{options_str}\n{explanation_str}" with open(os.path.join(output_dir, fname), "w", encoding="utf-8") as f: f.write(refined_md) print(f"Done: {fname}")

反复调整提示词后, 我们就可以得到较为完美的解析输出:

题目: 轻型无人机是指？ 选项: A. 质量大于 7 千克，但小于等于 116 千克的无人机，且全马力平飞中，校正空速大于 100 千米/小时(55 海里/小时)，升限大于 3000 米 B. 质量大于等于 7 千克，但小于 116 千克的无人机，且全马力平飞中，校正空速小于 100 千米/小时（ 55 海里/小时），升限小于 3000 米 C. 空机质量大于 7 千克，但小于等于 116 千克的无人机，且全马力平飞中，校正空速小于 100 千米/小时 (55 海里/ 小时），升限小于 3000 米 解析: 该题关键点在于空机质量。参考 R1 的质量分类，微型$0大型 5700 ext{kg}。

其实还可以提供一些样例, 供模型进行少样本学习(Few-Shot Learning), 效果会更好一些. 但是钱不够, 那这方面的测试可以等后面有兴趣了再进行.

至于公式和 Docx 输出, 使用pypandoc和python-docx就可以很简单地解决, 这里就不贴代码了.

大模型通常是解决问题时懒人的大杀器, 但是如何正确使用依然是费力且玄学的事情. 在某些情况下, 提供的样本越多模型的性能反而会下降, 至于其故事就等后续另开新篇章再讲.

如果各位有更好的解决方法也可以提出来相互交流.

veo3 一出，我越来越相信这个世界是虚拟的了

2025-05-29T01:40:16Z

短短几年视频生成技术就达到如此真实，再过几时上百年，谁还能分得清现实和虚拟

从 1947 年晶体管诞生，构建了今天的数字文明，下一个会是什么

2025-05-27T08:59:13Z

从 1947 年晶体管诞生，取代电子管，推动快一个世纪的技术发展。如今随着 AI 的快速发展以及摩尔定律的失效，是否会出现新的“晶体管”，以满足第四次工业革命的需求

请问大家的公司开发文档都是通过什么来规范的

2025-05-24T10:24:59Z

我一直觉得开发文档应该有一个类似规范或者输入形式
比如它的输入应该是严格受限，规范清晰的
但输出应该是规范且多种形式，比如办公三件套，HTML 等等
提交修改时可以跑脚本检查输入的合法性
并且应该很容易的进行版本的追踪
有类似的方案或者工具，规范吗？
举个例子（ Swagger UI, Markdown 等等）

[AI] 有类似豆包 app 的开源项目客户端吗

2025-05-21T05:01:01Z

最好 flutter 的，能实时对话的

关于“长时间计算”的请求方式的解决方案。

2025-05-12T02:20:46Z

我用词可能不太准确，具体情况就是，我们业务会设计到调用某些模型计算，这些模型有的是 java ，或者 python 源码的，有的是 exe ，甚至是 linux 下的可执行程序，总值千奇百怪的。我们只要是组装参数丢给模型，然后模型会经过一段时间返回一些结果，有可能是文件，有可能就是一个数组，问题就出现在这个时间上。

刚开始涉及到的模型是 java 的，计算时间也短，十来秒就结束了，我们采用的方案就是直接接口调用，等待响应就好了。

过了一段时间，涉及到的模型计算时间在半个小时晚上，就涉及到了数据的返回，已经这次计算的时候还要判断上次计算是否结束。（因为模型都是只能一次跑一个，没办法多线程运行。）计算时间长了过后，等待响应肯定是不行了，我们又采用了 grpc 的连接。又因为这个的参数组装加实际使用肯不方便，用着用着又搁置了。

现在我们采用的方案就是：设置全局变量，标志模型是否运行状态，还是调用 http 接口，本次计算后，不会等待响应，模型那边封装个通知接口，模型计算完成之后调用业务的通知接口返回参数或者文件，完成一次计算。

各位经验丰富的彦祖有什么更好，更合适一些的建议吗？感激不尽。

[问] 求一个 ios 端 LLM 聊天应用可调用多家 api

2025-05-04T08:51:00Z

电脑网页端我在用lobechat，是一个可以支持调用多家 api 多种模型的程序。我部署在自己的服务器上并且用自己的域名，用的时候就不必开梯子。

但是手机目前还没找到一个好工具，如果 chatgpt 官方 app 的话每次都需要先开梯子。用 safari 开 lobechat 的话又感觉不太方便。

想问问大家有没有在用什么方便的 app 在 ios 端能实现类似 lobechat 的功能。

rebang.today 今日热榜挂了么

2025-04-16T07:32:13Z

RT,我的科技新闻都是从这里看的啊

好奇， Manus 那波逆天营销最终留下了多少用户？

2025-04-10T03:27:20Z

manus 那波营销效果着实让我羡慕！至少在国内，提到智能体肯定绕不开 manus 了。不过当晚出的视频，第二天 openmanus 之类的开源项目就出现了，把风头抢了去。不知道现在还有多少用户留存在 manus ？

全国首个！湖北为脑机接口医疗服务定价

2025-04-03T06:43:45Z

2025 年 3 月 31 日，湖北省医保局发布全国首个脑机接口医疗服务价格，其中，侵入式脑机接口置入费 6552 元/次，侵入式脑机接口取出费 3139 元/次，非侵入式脑机接口适配费 966 元/次，标志着这一前沿科技正式步入民生领域，为无数患者带来了希望与曙光。

脑机接口已经走入实际应用了吗？一直以为是未来世界的设想。。。

为什么 AI 总在 "靠谱" 和 "离谱" 之间反复横跳？

2025-03-24T06:02:34Z

Hey, 我是沉浸式趣谈

本文首发于 [沉浸式趣谈] ，我的个人博客 https://yaolifeng.com 也同步更新。

转载请在文章开头注明出处和版权信息。

如果本文对您有所帮助，请点赞、评论、转发，支持一下，谢谢！

AI 真的懂你问的问题吗？

AI — 它可能是个「语言魔术师」，但绝对不是「人类大脑」

你心血来潮问 AI：

你：「为什么古埃及人建造金字塔？」

AI （认真回答）：「古埃及人建造金字塔主要是作为法老的陵墓，同时也有宗教意义，代表通往来世的阶梯。金字塔的建造反映了古埃及人对死后生活的信仰和对法老神圣地位的崇敬。」

你：「他们用了什么技术能搬运那么重的石块？」

AI （开始推理）：「考古学家认为古埃及人可能使用了斜坡系统、滚木和杠杆原理来搬运巨石。一些理论提出他们使用了湿沙降低摩擦力，有效减轻搬运重量。工人们组成团队，通过绳索和集体力量协作完成。根据计算，大约需要 4,000 名工人协同工作才能移动最大的石块...」

你：原来如此...（ AI 将有限的历史证据、各种假说和未经证实的理论混合在一起，呈现为确定的知识）

为什么 AI 总在「靠谱」和「离谱」之间反复横跳？

答案很简单：它（ LLM：大语言模型）根本不知道什么是「合理」。

AI 聊天机器人（比如 ChatGPT ）就像一个「超级语言拼图大师」。

它的所有「知识」，只是从海量文字中统计出的「词语搭配套路」。

当你提问时，它就像在玩一场巨型文字接龙——永远在猜「下一句话怎样接最像人话」，而不是判断「这件事是否可能发生」。

举个栗子 🌰：

人类思维：鱼在水里游 → 因为没有腿和肺
AI 思维：鱼在水里游 → 因为这句话在 10 万篇童话里出现过

它不关心现实逻辑，只追求「语言流畅」的概率。

这种「无脑缝合」的特质，让它既能妙笔生花，也能胡编乱造。

接下来，我们就扒开 AI 的「语言魔术」，看看它到底是怎么「一本正经说胡话」的。

一句话解释：

LLM （大语言模型）就是个「超级语言模仿怪」，它通过疯狂看人类的文字（书、网页、聊天记录），学会了「人类说话的概率」，然后就能跟你聊天、写文章、编故事，甚至装成莎士比亚。

它怎么工作的？

「吃」数据：先吞下整个互联网的文字（比如维基百科、小说、新闻）。
学规律：记住「哪些词大概率会一起出现」（比如「床前明月光」后面接「疑是地上霜」）。
猜答案：当你提问时，它就像在玩「文字接龙」，根据概率猜下一句最像人话的回答。

它能干啥？举个真实例子 🌰

场景 1：帮你点外卖

你问：「附近有啥不辣的川菜馆？」
LLM 答：「 XX 川菜馆有微辣版麻婆豆腐，评分 4.8 ，地址在 XX 路，电话 XXX 。」（其实它根本没去过，只是扒了大众点评的数据重组答案）

场景 2：装成历史老师

你问：「用小学生能懂的话讲秦始皇为啥要统一文字？」
LLM 答：「就像全班同学用不同密码写纸条，老师看不懂，秦始皇说：大家都用楷书！这样全国发通知就方便啦~」

场景 3：当你的嘴替

你输入：「帮我写封邮件，催老板赶紧批预算，语气要客气但强硬。」
LLM 输出：「王总好，关于 XX 项目预算，团队已准备就绪，若本周内能确认，预计可提前 2 周上线。您看方便今天抽空批复吗？感谢支持！」（其实就是把「你特么快点批」翻译成了人话）

它有多聪明？有多傻？

聪明时刻 ✅

写代码：你说「写个 Python 代码统计文件夹里有多少个 txt 文件」，它能立刻生成。
玩梗：你说「用鲁迅口吻写个奶茶测评」，它能编：「这奶茶，大约终究是甜了，像未庄的月光，朦胧中透着腻味。」

翻车时刻 ❌

瞎编数据：你问「马云哪年获得诺贝尔奖？」，它可能答：「 2020 年，因促进电商发展获奖。」（其实根本没有）
不懂人情：你说「女朋友说没事就是有事吗？」，它可能答：「根据心理学研究，女性表达方式存在多样性……」（直接给你念论文）

AI 真的懂你问的问题吗？深层次原因解析

1. 统计学驱动，不是真理驱动

AI 说的不是"真相"，而是"最可能的组合"。当它说"太阳从东边升起"时，不是因为懂地理，而是因为这些词常一起出现。
想象一个从没去过中国的人，只看过 100 本中国旅游书，他能"胡说"中国文化，但没有真实体验。

2. 幻觉现象(Hallucination)的本质

原因一：数据不足：训练数据中没有某个问题的答案，AI 就会"凭空捏造"
原因二：过度自信：AI 被设计成"尽量给出答案"而非"我不知道"
原因三：上下文混淆：AI 可能把你提问中的假设当作事实

3. 没有常识和意识

AI 没有"知道自己不知道"的能力，它没有元认知
它不会像人类一样通过身体感受和社会经验形成常识
例子：它能告诉你水的沸点，但不知道烫手是什么感觉

如何避免 AI 跟你胡说八道？实用技巧

使用 AI 的黄金法则

提供清晰上下文：不要假设 AI 知道前文，每次都给足背景
分步骤提问：复杂问题拆分成多个简单问题
要求引用来源：让 AI 列出信息来源，方便你验证
使用最新模型：新版本通常减少幻觉问题
设置专家角色：明确告诉 AI"你是 XX 领域专家"，减少胡说八道

设计有效提示词的公式

角色 + 任务 + 格式 + 限制条件

例如： "你是一位经验丰富的数据科学家(角色)。请分析这组销售数据并提供三个关键洞察(任务)。以简洁的要点形式呈现(格式)，避免使用技术术语，因为这是给非技术团队的报告(限制条件)。"

AI 胡话大赏：教你识别典型模式

词藻华丽但内容空洞

❌ "该技术利用先进的算法框架，通过优化的计算方法，提供了革命性的解决方案..."
✅ 识别方法：如果删掉形容词后句子失去实质内容，那就是在胡说

过度泛泛而谈

❌ "研究表明..."、"专家认为..."（但不给出具体哪项研究、哪位专家）
✅ 应对：追问"具体是哪项研究？发表在哪里？"

自相矛盾

❌ 前一段说 A 是对的，后一段又说 B 是对的（而 A 、B 互斥）
✅ 识别方法：总结 AI 回答的要点，检查是否有逻辑冲突

与 LLM 共处的哲学思考

AI 的"胡话"提醒我们：

信息 ≠ 知识 ≠ 智慧：AI 有海量信息，但不一定有正确知识，更没有智慧
工具思维：把 AI 当作放大镜或计算器，而非顾问或老师
批判性思考更重要：在 AI 时代，辨别真伪的能力比获取信息更宝贵

AI 的本质

像「搜索引擎+演说家」的结合体：能找到相关信息并流畅表达，却不理解问题的本质。
像「语言版复印机」：能复制人类表达模式，却对内容真假缺乏辨别能力。
像「表面通晓万事的朋友」：答案听起来很对，但经常混合事实与猜测于一体。
重要提醒：它不会真正理解你的问题！它只是识别问题模式并匹配最可能的回答

下次有人问你 AI 是否真的懂问题，

你就说：「不，它只是个超级语言预测器，能猜出问题后面该接什么话，但根本不知道自己在谈论什么」

结语

回到开头的问题：AI 真的懂你问的问题吗？

答案显而易见：不，它不懂。

它只是在玩一场极其精妙的语言游戏。

当 AI 回答你关于古埃及金字塔的问题时，它并不是真正理解了考古学和历史，而是巧妙地重组了互联网上关于这个话题的无数文字。

它给你的是语言的拼图，而非知识的本质。

这让我们想起文章开头的比喻：AI 是个「语言魔术师」，但绝对不是「人类大脑」。

它能让文字华丽地舞蹈，但不理解舞蹈的意义。

在 AI 时代，真正的智慧不在于拥有 AI 这个工具，而在于明智地使用它，同时保持批判性思考的能力。

请教大佬谷歌验证电话号码的问题

2025-03-02T07:44:43Z

我注册了一个谷歌邮箱，并添加了辅助验证邮箱，我没有理会添加辅助验证电话号码，可以正常登录，过了几天在一直登录的设备 gmail app 进入的时候或者网页或者无痕登录提示：我们检测到您在尝试访问的账号存在异常活动。如要继续，请按以下说明操作。提供一个电话号码即可继续。我们将向您发送一个验证码，以便您用来登录账号。添加任何国家地区任何运营商的电话号码都提示：此电话号码无法用于进行验证。也没有验证辅助邮箱的选项请问大佬怎么解决？进入账号恢复，输完密码以后，仍然是检测到账号异常活动，提供一个电话号码即可继续，此号码无法用于进行验证请问大佬如何解决?

如果让你们自己组装融合

2025-02-24T03:19:11Z

大家感觉这个需求存在吗就是自己去收集或者去写一些 shell 脚本，然后通过工具去管理。

类似我这样用工具 https://github.com/zhangjunjie6b/shellok

我是这样做的，比如我想测试服务器上下载速度我就去写一个

然后服务器上

这样就拥有了一个自定义的融合怪

[请教] 实现 Facebook 开发者接口验证是否关注我们的公共主页

2025-02-20T01:24:13Z

最近项目活动需求需要实现用户在 Facebook 关注我们的公共主页后赠送响应积分，需要使用开发者接口在服务器验证印象中这种需求在微博上曾经做过，就是去开发者中心找对应接口但是在 Facebook 上只知道了是否用户点赞的接口，尝试使用 GTP 也没给出正确的答案，要么是接口不存在要么是接口已经下线

ios 有类似 cherry studio 这样的应用吗

2025-02-09T09:47:28Z

因为 deepseek 官网老是繁忙，于是在火山上搞了 r1 ，也开了 api 服务，但是找不到 app 能接入的

过年买点啥给自己?

2025-01-17T08:31:28Z

过年了, 总想买点新鲜玩意, 各位帮忙支支招? 1000 以内的吧, 谢谢各位

有没有开源的“在线”微信备份服务？

2025-01-16T07:47:16Z

最近想给家里人备份微信聊天记录。准确的说，不是“备份“，而是”导出“。所以需求是：

1. 备份

2. 为手机腾出空间

3. 可以继续”在线“搜索这些备份的数据。

搜索了一些工具，基本都是只能做到前两点，而备份的数据就“死了”。这些历史数据无法继续搜索，阅览。

所以想问问，有没有这样的工具。可以把数据备份了，然后可以搭建一个 selfhost 服务，再安装一个 App 去访问上面的数据。当然了，这时候是查询访问，而不是再全量的把数据又下载回手机本地。

使用 poe 的同学，现在 Claude 3.5 都弱成这样吗

2024-12-31T02:23:37Z

使用了几个月的 poe ，并订阅了年会员，最先我一直使用的都是 Claude3.5 ，甚至也是 Claude 的分析问题和语言组织，让我下定订阅 poe 年会员。但最近一月，Claude 已经处于完全无法使用的状态，病症是无论什么提问，无论是 3.5 sonnet 或 200k ，回答基本都是长篇列举式的短句提纲，没有正文，完全无法具体分析我提到的各类问题。但相反情况是，前几个月 gpt 4o 的回答不够出彩，现在看起来反而要好很多，还有 gemini 也好了一些，但唯独这个 Claude 的所有模型。下面这些就是 Claude 出现的问题，就像我不断指出以上问题后，他依然是下面的这种回答。请问你们出现这种问题吗？还是 poe 的问题？

“您说得对,我刚才的回答确实显得过于形式化和结构化,像是在写教科书或论文提纲。这种回答方式存在以下问题：
太过理论化和学术化
缺乏实际应用的解释和案例
不够生动易懂
像是在背诵知识点
没有针对具体问题给出实用建议
建议改进方向：

用更通俗的语言解释概念
增加实际案例
结合具体应用场景
进行互动式交流
重点突出实用性建议
您觉得这样的沟通方式是否更适合?我可以针对您感兴趣的具体问题重新回答。“

AI 大模型佬们如何看待旧世代大数据技术?

2024-12-17T02:05:16Z

新时代的船上还有老东西们(Hadoop 生态, 流式生态, MPP)的位置吗?

AI 底层用的最多的应该是容器化(K8s/..), 对象存储(Ceph/..), Python

佬们是如何看待这两者关系, 是否现有大数据技术可有可无, 从头新立即可.

NVIDIA 新开发者福利： 600 元 AI 课程免费学，还有机会获得 NVIDIA 培训证书

2024-11-30T01:49:30Z

https://www.solidot.org/story?sid=79898

大家有在学习 DL 的么？

以当前的大模型能力，能否实现 AI 赛博飞升？

2024-11-29T05:32:26Z

昨天看了一个视频，B 站量子位的我用两年聊天记录，复刻出一个 AI 版的自己。其中讲了 up 用自己几年的聊天记录和个人平时写的东西，用 LoRA 微调了一个 ChatGLM 4B ，但是最后的效果却让人不太满意，虽然在一定程度上学习到了用户讲话的方式，但是也让模型本身说话的能力遭到了破坏。

我认为这次尝试效果不好的一个原因是底模不够强大，一个 4B 的模型本身说出有条理的话就已经很难，还要让其理解并学习用户说话的语气和方式，并拥有用户的记忆，本身就已经很难。

所以我在想，以当前大模型的能力，是否可以通过设计一套系统实现用户的赛博飞升？让 AI“成为”一个人具体需要调整和设计哪些方面？

为什么很多手机的宣传页拍照介绍的时候展示的图片都是老外呢

2024-11-15T07:19:54Z

iqoo13 有关注的吗？

2024-10-31T02:30:47Z

早上看新闻的时候，看见有跑马灯，瞬间心动了，感觉很炫酷(老婆觉得很 low)

一觉醒来， follow 怎么登陆不了了？

2024-10-24T01:47:23Z

这几年被拖下神坛的几家米帝公司

2024-10-18T07:24:31Z

简直是 80 年代的敬仰的公司，这几年有的简直是丑态百出。其中一家不算传统 it 吧，令人唏嘘。

倒闭的几家不算，比如 Sun ，还是让人敬仰。

微软将终止中国个人 Azure OpenAI 服务，仅企业客户可用

2024-10-17T15:00:47Z

微软将终止中国个人 Azure OpenAI 服务，仅企业客户可用大家怎么看

特斯拉 Robotaxi 发布会重点一览——无人驾驶 Cybercab、Robovan，升级版 Optimus 机器人

2024-10-11T03:49:57Z

1. Robotaxi：特斯拉发布无人驾驶出租车 Cybercab ，为双门两座汽车，没有方向盘和踏板，采用感应充电，没有充电插口。发布无人驾驶巴士 Robovan ，可容纳 20 人，也可用于货物运输。

2. 生产时间：Cybercab 预计将于 2026 年开始生产，2027 年之前以非常高的产量生产。用户可以提前在特斯拉其他车型上体验到无人驾驶出租车。

3. 成本方面：随着时间的推移，预计 Cybercab 运营成本将为每英里约 0.2 美元，含税价格可能为每英里 0.3 或 0.4 美元。预计 Cybercab 成本将低于 30,000 美元。Robovan 的旅游成本为每英里 5 到 10 美分。

4. 自动驾驶：预计特斯拉将于明年在美国得克萨斯州和加利福尼亚州启动 Model 3 和 Model Y 无人监督的完全自动驾驶（ FSD ）功能。

5. Optimus 机器人：在 Optimus 项目上取得了很大进展，在大规模生产的情况下，成本将在 2 万至 3 万美元。Optimus 机器人在发布会上进行了集体舞蹈以展示灵活性，还在发布会后的参观活动上为参观者提供了酒水服务。

在没有自建服务器的情况下，如何将需要登录的网站订阅到 rss

2024-10-08T08:47:30Z

高通都要收购英特尔了吗

2024-09-21T02:00:17Z

现在英特尔这么没落了吗在我印象中曾经的英特尔 i3 默秒全,i5 秒全家,i7 轰成渣

摄像头人体检测、摄像头向服务器推流，哪位大佬有好的方案

2024-09-13T03:09:14Z

检测到有人活动，就给服务器发消息

服务器下发指令，可以把实时视频流推到服务器，监控端可以查看监控视频

网络摄像头或者 USB 摄像头（板子是 Android ）

这个方向哪位大佬有经验？指点一下我

[日志] 关于日志查询系统选项的几个疑问， ES 系与 Loki 系。

2024-09-12T01:49:47Z

最近要给公司搭建日志查询系统。几点疑问请教各位。

日志查询系统里的数据一般存放多久的日志？我们的日志有原始备份在 s3 上，查询系统上的数据是不是就可以定期删除掉了？
Loki 动态标签问题。Loki 不推荐动态标签，其理由是影响性能、增加索引体积。但是我怎么感觉少了动态标签，查询就很鸡肋。下面是我的想法，不知道符不符合实践经验，望指正！想法：

a. 分布式系统，少不了要用 reqeustId 去链接起一个请求经过不同服务产生的日志。

b. 不同的子业务，会有不同重要的数据 ID 。比如，一个订单系统的请求，打印出来的每一条日志，至少都要带上订单 ID 吧？这类数据 ID 也是动态标签。

c. 如果这些动态数据都不用 labels ，而是用正则匹配 log 内容查询。个人直觉告诉我，这个有点鸡肋。
如果用 Loki 索引动态标签。数据量大的时候，性能会不会比 ES 拉跨？

两个种服务都在本地实验性的搭建起来过。

Kibana 确实感觉有点吃性能，web 页面还偶尔会有点卡卡的，功能很多眼花缭乱（不过这个可以选择使用，逐步深入），但是查询的功能确实更强大。

Loki 真的很轻量就是不知道这动态标签用起来之后，会不会卡。不过查询真的差点意思。

V2: 最近我安装了 Loki + Promtail + Grafana ，感觉这一组合可以取代 Elasticsearch + Logstash

V2: Grafana Loki 开源日志聚合系统代替 ELK 或 EFK

掘金：Loki 最佳实践（译）

skiplist 节点的随机层高布局可以复用吗？复用后会损失多少效率

2024-09-03T10:04:57Z

skiplist 作为常用于 LevelDB,RocksDB 中的数据结构，在每次插入新数据时，会生成随机的层高。

如果每次创建新 skiplist 时，都使用完全相同的随机函数以及 seed ，从而每个 skiplist 被填满后，其层高的布局皆相同，这样相比于每次都完全随机层高的布局，会否降低查询效率？写入又会否有所改善，因为仅需查表而非摇色子。

想法是，写入数据的顺序本身就是随机的，被复用的层高布局本身也是随机的，只是从宏观看，所创建的所有 skiplist 实例的层高布局不够随机。

科技