自然语言处理

有人能编译跑通 seamlessM4t 吗？

2025-06-25T07:00:11Z

我怎么都编译不过，ai 告诉我 windows 就不行，我换到 ubuntu 环境还是不行，勉强把 fairseq2 0.2.0 编译出来了，但还是提示缺少 fairseq2n ，这个 c+。的库怎么才能被 Python 所 import 呀

上海某私募招聘量化研究员（算法模型，深度学习算法，语音算法， nlp， cv，强化学习等方向）

2025-03-30T01:25:28Z

主要职责：
1.开发和优化量化交易因子信号，提升对交易品种的定价能力。
2.构建机器学习、深度学习等量化模型，利用数据驱动的方法对市场进行分析研究。
3.设计和实施高效的量化交易策略，实现策略在不同市场环境下的稳定性和盈利能力。

岗位要求：
1.对前沿理论和技术有不断学习的热情，拥有不断创新突破的激情和勇气。
2.国内 985 高校或者国外知名大学毕业，本科以上学历。
3.具备优秀的编程能力，熟练掌握 C/C++、Python 等开发语言，有高效算法实现的能力。
4.拥有良好的团队合作意识和沟通能力，能对复杂问题进行深入研究并提供解决方案。
5.计算机科学、电子工程、数学、和自然科学等定量分析相关专业背景的本科、硕士或博士。

有兴趣了解投递请+vx∶ MTgyMjE3MjExNzA=

如何快速接入一个有 MCP 能力的 LLM?

2025-03-13T01:07:43Z

目前有没有项目，像 LiteLLm 那样做 Proxy, 支持各个主流 LLM 厂商的 API 。然后有能(可能是插件形式)支持安装 MCP 服务器。有这样的吗？

有朋友正在学习 nlp 吗？

2024-12-13T02:22:47Z

自己学习遇到了一些问题，想问一下大家一些关于 nlp 的问题。我正在做文本情感分类的模型，用的双向 lstm ，损失率一直在 0.7 左右震荡。数据大小：5w 多条（第一列标签 0 1 ，第二列文字） batsize：32 lr：0.001 hidden dim: 64

国内的翻译平台似乎有一个普遍的 bug

2024-05-29T05:54:45Z

中译英, 如果原文中有英文单词, 译文中这个词可能会变成另一个词.

[请教] [可有偿] 请问有没有懂自然语言处理的大佬，想请教几个问题

2024-04-09T13:18:01Z

信息提取的部分：有没有什么用于信息提取的中文或多语言模型？有没有用于中文分词的模型？有什么处理汉字比较准确的 NER 模型？还有没有比 LILT 更好的分析模型（在分析汉字上？一般训练中文模型的超参数（比如训练周期（ Epochs ））是多少比较好。
对于 OCR 来说，有哪些在处理 pdf 上比较准确的中文 OCR 模型？怎么提高处理中文图像的准确率？

高质量数据集对模型开发和 fine-tune 的重要性

2024-03-14T12:00:47Z

我是布噜噜，一个专注于管理 AI 数据的创业者。

在人工智能的发展历程中，数据的质量和量决定了模型性能的上限。随着技术的进步，大模型利用海量数据训练成为了行业的共识，但这一方法在垂直领域的应用效果往往只能达到 60-70 分的水平。为了实现 AI 技术的实际落地，特别是在精细化、专业化的场景中达到至少 90 分的性能要求，开发专业的模型或对大模型进行 fine-tune 变得尤为关键。

垂直领域应用落地的挑战

大型通用模型虽然能够处理广泛的任务，但在特定的垂直领域往往难以达到理想的效果。这是因为垂直领域的数据具有独特性和专业性，需要模型具备更细致的理解能力。例如，在医疗影像识别领域，模型需要能够准确识别和区分各种疾病特征，这要求训练数据不仅要量大，更要质优。很多模型开发者由于各种原因，会使用公开数据集。而对于工业界而言，公开数据集往往不具备实际应用价值。这是因为大多数公开数据集无法真实反映现实世界的复杂性和多样性，从而导致在实际应用中模型表现不佳。实际上，使用大量质量参差不齐的数据开发模型往往会适得其反，模型的表现可能因此受到负面影响。

高质量数据集的必要性

高质量的数据集是指数据完整、准确、丰富且分布符合实际应用场景的数据集。这样的数据集对模型的开发和 fine-tune 至关重要，原因如下：

提升模型准确度：高质量的数据可以提供更准确、更细致的信息，帮助模型学习到更精确的特征，从而提升模型在特定任务上的准确度。
增强模型泛化能力：通过覆盖更广泛的场景和情况，高质量数据集能够训练出更具泛化能力的模型，使其在面对未知数据时表现更加稳定。
减少过拟合风险：精心准备的数据集有助于平衡数据的分布，避免模型过度学习训练数据中的噪声，降低过拟合的风险。

后面我们希望为大家建立一个 AI 数据管理平台，专注于服务模型开发、Fine-tune 和 prompt 团队，第一步我们将开发一个数据标签的定义与协作平台，希望能在数据管理层面帮到大家。我们不生产数据，我们只是数据的管理者。

请教下本地部署的语音转文字应用

2024-01-29T04:28:46Z

场景一：工作中有些场景需要和客户交流，有的客户是话唠，虽然也在电话中有记录要点，但还是怕自己有疏漏。

场景二：个别内部会议中需要发言，然后大佬会提问，这种情况下无法记录，希望把会议纪要尤其是问答转为文字。

需求：想找个本地部署不联网的程序将语音转化为文字。本地还是考虑信息安全问题。

听说有的手机现在有对话摘要的能力，如果本地部署是否可以实现将语音转为摘要，有啥推荐的程序吗？

谢谢。

有没有什么语法检查的模型啊？

2023-11-14T07:05:01Z

用了 3.5 和 Claude 感觉不太行啊。有没有什么便宜且准确的英语检查模型？

我是国内的 NLP 从业者，大模型这一波风吹过来了，在公司做大模型感觉前途未卜的样子

2023-11-09T07:43:09Z

openAI 的发布会让无数创业公司直接死亡，大模型直接席卷 NLP ，CV ，语音，国内相关的从业者的未来是什么，很是迷茫，求大家指教

[求助]kaggle 中训练模型遇到的一些问题

2023-10-17T02:06:38Z

rt 。在 kaggle 中遇到了一些问题，想请求一下帮助。具体情况是这样的：在 kaggle 上有个名为 tweet sentiment 的竞赛。给定训练集和测试集，训练集中包含原文本、筛选文本和情感词。测试集中包含原文本和情感词，具体任务，就是让模型学会怎么利用情感词，从原文本里筛选出合适的词语。作为初学者，我想要用这个竞赛来练手。
举个例子：my boss is bullying me... 对于这个句子，给出的情感词是 negative ，筛选出的文本是 bullying me 。
我的思路是这样的：使用 transformer 库的 bert 模型。把情感词和原文本拼在一起，tokenizer 编码后，作为训练集输入。与此同时，用筛选文本逐个比对原文本，得到 0 1 标签，用它来表示原文本里哪个词被选中，以此作为训练集的标签。测试集的输入也做相同处理。而模型的输出是概率，转为 0 1 标签。
用上面的句子举例，对应的标签大概就是 0 0 0 0 0 1 1 0 这样子。由于最终的输出还是文本，所以得到测试集标签后还需要再转回文本。
现在模型可以正常使用，但我遇到了一些问题：首先，我的输入都是有注意力掩码的，但是输出标签却存在问题：

由于每个句子长度都不一样，我需要把句子和标签都补充到最大长度。输入有注意力掩码，但输出却总是在没有词语的位置也附加概率，导致概率被稀释了。这个问题还可以通过让输出的概率乘掩码来去掉无用的部分一定程度规避，但还有一个问题我不确定该怎么办。

由于句子长度不一样，所以模型的输出概率没有一个统一的水平。如果筛选文本只有一个词，那分给他的概率就很大，如果整个句子都是要选中的，那分给有效词的概率就很低。这样我就没办法选择一个合适的阈值来划分 0 和 1 。我是自学上来的，这种情况确实没有想到可以怎么做，请问这种情况应该怎么处理？谢谢

请问有哪些文章改写润色的开源实现啊

2023-09-18T11:34:58Z

有没有文本内容标注的成熟项目。

2023-08-12T06:47:26Z

类似 V2EX 这样通过文本分析从一个已知的标签库中选择最合适的打上。

NLP 有没有这样的模型，比如搜索 fetch 请求，自动帮你把 fetch/xhr/request 的数据相关性较高的内容展示出来的

2023-07-28T06:20:09Z

我觉得个人不配部署 gptgpt ，羊驼也没有资格部署，不是说有点 gpu 就行，电费也是问题

GPT 用于知识图谱构建的 NER 和 RE

2023-06-07T02:48:59Z

最近计划构建疾病主题的知识图谱，想到使用 gpt 等大语言模型从文本中直接提取相关的实体和关系，这样的优势是不用针对特定领域进行模型的训练和优化，开箱即用。尝试的思路有：

专门用 LLM 来执行 NLP 任务的项目 https://github.com/promptslab/Promptify
创作角色和技能 https://github.com/yzfly/LangGPT

chatgpt 上自己做一些提示词的测试，gpt-4 的表现优于 gpt-3.5 ，能够得出更接近预期的答复。但是也有几个问题：

生成结果的一致性差，gpt 容易进行创作发挥(gpt4 与 3.5 都有类似的问题)；
gpt-4 api 目前还没有申请到，即便申请到也比较贵，很难进行大规模的文本的处理

目前的设想是基于 gpt-3.5 ，结合提示词的优化达到尽可能高的效果，结合人工矫正后的例子来更好地帮助模型理解。如果有朋友做类似的工作，希望一起交流探讨一下。

深度学习如何运用到区块链中？

2023-05-12T13:04:08Z

本文我们将和大家探讨深度学习算法，如何在加密资产的量化模型中得到应用的。

FinTech 社区是 5 万+专注于量化投资 /区块链 /金融科技 /AI 行业的国际招聘社区，欢迎加微信：smilejin689

加入社区交流！

- 官网：www.fintechgl.com
- B 站视频： https://space.bilibili.com/1426020404
- 小红书： https://www.xiaohongshu.com/user/profile/63620ca1000000001f014d66?xhsshare=CopyLink&appuid=63620ca1000000001f014d66&apptime=1681374159
- 公众号：FinTech 社区咨询

深度学习领域的一些方法，在应用于各种资产类别（包括加密）的量化模型时，已经显示出广阔的前景。从各个角度来看，加密资产几乎是基于深度学习的量化模型的完美资产类别。这是因为加密资产的数字 DNA 和透明性，加密资产的兴起与机器学习的复兴和深度学习的出现是交相呼应的。

接下来我们将介绍五大深度学习方法，以及他们在加密资产的量化模型的应用简介。

一、图神经网络
图片: https://uploader.shimo.im/f/nPKaKCe6bYOFdJEA.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE2ODM4OTY4NDQsImZpbGVHVUlEIjoiS0o5anBSaFRqdDloajhkcCIsImlhdCI6MTY4Mzg5NjU0NCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo3NTIxMjcwMH0.es5_mVa1GNP57sFW9DwxC5S81TZbX42bwORDxoB-0Rk

区块链数据集是加密资产领域量化模型 alpha 的唯一来源。从结构的角度来看，区块链数据本质上是分层的，由一个图表示，其中节点表示地址，边表示交易。

试想一个场景，一个量化模型试图根据向交易所转移资金的地址的特征来预测比特币在给定交易所中的波动性。这种量化模型需要在层次数据上高效地运行。但是大多数机器学习技术都是设计用来处理表格数据集的，而不是图。

图形神经网络（ GNNs ）是一门新兴的深度学习学科，主要研究在图数据结构上高效运行的模型。GNNs 是一个相对较新的深度学习领域，直到 2005 年才发明。然而，GNNs 已经被 Uber 、Google 、Microsoft 、DeepMind 等公司大量采用。

在我们的示例场景中，GNNs 使用一个图作为输入，表示每笔交易的支出和收入，并推断其对价格的影响相关的知识。在加密资产方面，GNNs 有可能用户开发基于区块链数据集的创新量化方法。

二、生成模型
图片: https://uploader.shimo.im/f/T4QrNRkSVn5rdBrF.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJleHAiOjE2ODM4OTY4NDQsImZpbGVHVUlEIjoiS0o5anBSaFRqdDloajhkcCIsImlhdCI6MTY4Mzg5NjU0NCwiaXNzIjoidXBsb2FkZXJfYWNjZXNzX3Jlc291cmNlIiwidXNlcklkIjo3NTIxMjcwMH0.es5_mVa1GNP57sFW9DwxC5S81TZbX42bwORDxoB-0Rk

机器学习量化模型通常会受限于缺乏大量的历史数据集。假设你正试图建立一个基于历史交易行为的预测模型来 chainlink （ LINK ）的价格。虽然这看起来很吸引人，但由于 LINK 在 Coinba 一年多的历史交易数据，是相对很小的数据集，对预测模型的挑战是极大的，因为对于大多数深度的神经网络来说，小数据集不足以概括出任何相关的知识。

生成模型是一种深度学习方法，专门用于生成与训练数据集分布相匹配的算法合成的数据。在我们的场景中，假设我们要用 Coinbase 中 LINK 的订单记录来训练生成模型，以便生成新的与实际订单记录分布一致的新订单。

结合真实数据集与合成数据集，我们可以建立足够大的数据集来训练复杂的深度学习模型。生成模型的概念并不是特别新，但近年来随着生成对抗性神经网络（ generativereportarial neural networks ，GANs ）等流行技术的出现而受到了广泛关注，它已成为图像分类等领域最流行的方法之一，并已成功地应用于时间序列金融数据。

三、半监督学习

有标记的数据集在加密资产交易中是稀缺的，这严重限制了现实世界中工作良好的机器学习（ ML ）量化模型。想象一下，我们正试图构建一个 ML 模型，该模型根据场外交易（ OTC ）的活动进行价格预测。为了训练这个模型，我们需要一个超大的带有标签的数据集，但这是加密资产市场是很难获得到的。

半监督学习是一种深度学习技术，它关注于创建模型，该模型可以使用少量有标记数据集和大量的未标记数据进行学习。半监督学习类似于教师向一群学生介绍一些概念，而把其他概念留给学生作为家庭作业和自学。

在我们的示例场景中，假设我们训练了一个模型，其中有来自 OTC 交易的少量标记交易和大量未标记交易。我们的半监督学习模型将从标记的数据集（如交易规模或频率）学习关键特征，并使用未标记的数据集来扩展训练。

四、表征学习
特征提取和选择是任何量化机器学习模型的关键组成部分，在像加密资产预测等不太清楚的问题中尤其重要。想象一下，我们正试图建立一个基于订单记录的比特币价格预测模型。

建模时我们努力的一个重要方面是确定哪些属性或特征可以作为预测因素。是中间价、成交量还是其他上百个因素？传统的方法是依靠专家来人工筛选这些特征，但随着时间的推移，这些特征很难进行扩展和维护。

表征学习是深度学习的一个领域，它致力于自动化实体表征或特征的学习，以建立更有效的模型。表征学习不再依赖于人工特征建模，而是尝试直接从未标记的数据集中推断特征。在我们的例子中，一种表示学习方法可以分析订单，并识别数十万个潜在的特征，这些特征可以作为比特币价格的预测因素。这种缩放和自动化水平在手工特征工程中是不可能实现的。

五、神经结构搜索
创建量化机器学习模型的过程在许多方面仍然是高度主观的。让我们以一个模型为例，该模型试图根据一组 defi 协议中的活动来预测以太坊的价格。考虑到问题的性质，数据科学家会根据问题的性质，而偏向于使用某种类型的模型和结构。

在我们的场景中，这些想法大多基于领域知识和对 DeFi 协议中的活动如何影响以太坊价格的主观看法。由于机器学习是建立在知识的基础上的，而且知识不是一个离散的单元，对于一个给定的问题，几乎不可能讨论一种方法与另一种方法的优点。

神经架构搜索（ NAS ）是深度学习的一个领域，它试图使用机器学习来自动创建模型。用机器学习来创造机器学习。给定一个目标问题和数据集，NAS 方法将评估数百种可能的神经网络结构，并输出最有希望的结果。

在我们的示例场景中，NAS 方法可以处理一个数据集，该数据集包含分散式交易所中的交易，并生成一些模型，这些模型可以根据这些记录预测以太坊的价格。

最后

本文介绍了部分深度学习领域的方法，其他深度学习方法，如强化学习、自监督学习等等也正在加速进入量化领域。关于将深度学习技术应用于量化模型的研究和实验正在如火如荼的进行，而本文重点关注的加密资产必将成为这一创新浪潮的巨大受益者。

本期关于深度学习方法应用于加密资产量化的讨论就到这里，如果您有其它感兴趣的量化或深度学习领域欢迎留言探讨。

Vecuna 7b 部署与实践

2023-04-08T03:05:46Z

这段时间 LLaMa 进展神速、居然存在开源的 Vicuna 声称可以达到 chatgpt 4 90%的能力。

以下是官方文档
https://github.com/lm-sys/FastChat

部署问题挺麻烦的、找到了一篇这个部署文档

https://medium.com/@chharlesonfire/how-to-install-vicuna-in-your-local-pc-c3ddf89d3776

大家可以看看

请教一下此类场景在 NLP 中属于哪个功能分支，可否通过 NLP 相关模型实现

2023-02-09T06:13:35Z

简单点说，就是从微信群聊记录中摘取关于工序流转的文本，并从中提取关键信息，录入到数据库中。

其中关键信息有：工序名称，产品型号，数量，批次，接收人等。规定的流转格式是：

封装转测试 HP-10010 10 只 2301 批 @张三

但是具体到操作员发到群聊的时候，就变味了，各种五花八门的表达都有，这也就导致原本可以使用正则来提取信息变得困难，比如：

转测试 HP-10010 10 只 2306 周 @张三 HP-10010 转高低温测试 10 只 2306 周 @张三

如果用 NLP 来处理，如分词、词法分析、自动摘要，都不符合上述场景。

所以请教大家，有没有一个 NLP 功能，我可以自定义词库，如产品型号、工序名称，使得它能正确的识别到这是 1 段关于工序流转的语言，从而提取出关键信息。

如何根据浏览记录关键词对用户做聚类分析？

2023-01-09T09:13:31Z

如何根据浏览记录关键词对用户做聚类分析？

是这样，工作中一直用 tableau 做简单的可视化分析，例如根据用户的使用次数、历史记录关键词词云、主题分布做简单的资源推荐，用户的行为分为检索、浏览、下载三种，其中浏览过且未下载的部分是自愿的推荐点。

如今我想做进一步的分析，思路是想根据用户使用历史的关键词做聚类，然后找到他们浏览过且未下载的资源的特征，然后做可视化分析。

现在已经用 jieba 做好了分词，卡在了根据每个 session id 的关键词聚类分析，想请教各位大佬，给点启发，万谢~

诚招语言模型训练实习生

2022-08-18T07:50:19Z

启元世界诚招语言模型训练实习生，负责英文语料准备，对标 MassiveText ，欢迎私信！

坐标北京市海淀区中关村壹号，投递方式: https://inspirai.jobs.feishu.cn/941272/position/7117470273036962061/detail 或邮件: changjianbin@inspirai.com

有什么办法能获取一个城市下的地名？

2022-08-02T06:29:26Z

有什么办法能获取一个城市下的地名？需要这种词库，要求能覆盖国内主要城市。
这里的地名包括街道、小区、地铁站等。以北京市为例，包括中关村、五道口、和平里……

有付费方案也可以考虑，最好能附上价格。

谢谢大家。

博客根据文章内容跑自然语言分析自动识别关键字，有什么廉价的实现方法吗？

2022-03-02T06:42:41Z

如题，需求是想给个人博客加个关联推荐，类似于 V2 这种给每个文章自动加上关键字 tag 的方式感觉就挺好的。个人小站不需要推荐的太精准，大概差不多就行，有什么计算开销和实现成本都比较低的方案吗？

谢谢大家，不知道站长能不能分享下 v2 实现思路。 @Livid

请教一个 NLP 的问题

2021-08-02T01:06:24Z

请问一下大佬，有没有开源的组件可以提取短语的，例如：

牛顿冷却定律在得到 APP 的实践背景介绍「得到锦囊」产品刚上线时，该版块首页的最热排序暴露了两个问题：分页时数据重复和最热榜单被霸屏，本文将围绕解决这两个问题来展开，介绍下如何参考牛顿冷却定律来优化最热内容的排序。“牛顿冷却定律”本质上它描述了高于周围温度的物体会向外散热，并逐渐降温的过程，同时单位时间内散热与周围温差会成正比关系。通过建立”温度”与”时间”之间的函数关系，构建一个”指数式衰减”（ Exponential decay ）的过程。如果我们把”热文排名”想象成一个”自然冷却”的过程，那么如下的场景是成立的：任一时刻，网站中所有的文章，都有一个”当前温度”，温度最高的文章就排在第一位。随着时间流逝，所有文章的温度都逐渐”冷却”。一、最热榜单暴露的问题 2020 年 1 月初，得到 App 的新产品「得到锦囊」正式上线。产品刚上线时，版块首页的最热排序模块，暴露出了两个问题：分页时数据重复和最热榜单被霸屏，本文将围绕解决这两个问题来展开。排序规则与朴素的实现方案产品需求定义的最热排序规则是：按照问题的总查看量来倒序排列，且有分页和查询条件。服务端对于这种场景，最简单高效的实现方式，就是利用 sql 的 query 语句了，于是我们就直接 [order by {问题的查看量} desc] 来实现了。总查看数 = 获得查看权益的用户数 = 购买数 + 赠一得一领取数这个简单朴素的实现方式，在加上缓存策略，使得我们用较小的成本就满足了产品需求，也应对了较高的流量。

如上述语句，可以提取出：“牛顿冷却定律”，“得到锦囊”，“热榜单霸屏” 等短语，感谢。

使用 NLP 从书中提取各个角色的台词

2021-05-03T16:00:20Z

身边有个富二代开了家有声读物的工作室，想用软件来替代人工分句，不知道大哥们有没有好想法。（或者愿意写一个就更好了，有偿，准确度高的话个把万没问题

Feishu(飞书) 聊天机器人应用 - 定制对话，实现知识库、信息查询、意图识别、多轮对话

2021-02-08T04:17:51Z

Chatopera 飞书 Custom App

通过 Feishu 开放平台和 Chatopera 机器人平台上线企业聊天机器人服务。

Feishu：高效率的协作办公软件
Chatopera 机器人平台：定制智能对话机器人的开发者平台

开源项目

https://github.com/chatopera/chatopera.feishu

Snowboy 离线唤醒 2021 年开始就停止维护，有没有其他大厂的产品可以替代使用？

2021-01-04T06:11:15Z

https://github.com/Kitt-AI/snowboy/

sphinx 生成的中文语音模型过于通用，只要普通话标准谁都可以识别到。之前 Snowboy 生成的 pmdl 语音模型还有一定的识别度，识别自己的语音准确度会高些。

2070s 跑不了 gpt2

2020-11-22T01:27:01Z

试了下 gpt2-ml，貌似咱的 2070s 跑不起来，8g 的显存不够用啊。

深度学习工程师， 80-200W，杭州，幻方 AI Lab

2020-10-27T01:46:59Z

目标：

设计开拓性的新的深度神经网络
构建科学、严谨的算法评测体系
紧跟领域前沿，推动基础研究

要求：

精通机器学习（深度学习），具备创新研究能力。
编程能力出色，熟练掌握至少两种编程语言，熟练掌握 Tensorflow/Pytorch 。
有丰富的研究成果，在国际顶会或期刊发表相关论文（包括但不限于 NIPS, ICML, CVPR, COLT)。
在领域内知名比赛取得优异成绩者优先。
认同开放共进的企业文化，积极创新，乐于挑战，良好的逻辑思维、沟通协调和自我学习能力，主动负责，严谨细致，勤奋踏实。

另外还有深度学习初级工程师、实习生等多种职位，欢迎投递简历

[周三（10.21）分享日] 百度 AI 语音识别应用与场景案例分享

2020-10-16T06:05:25Z

[周三分享日] 是百度智能云开发者社群集结百度智能云+百度 AI 各产品负责人，为大家带来百度智能云+百度 AI 产品的分享、优惠活动等新鲜内容的直播栏目。

本期直播时间：2020-10-21 20：00-21：00

直播主题：百度 AI 语音识别应用与场景案例分享

2020 年 10 月 21 日晚上 8-9 点的直播链接已出，欢迎小伙伴们提前收藏，届时关注哦
http://abcxueyuan.cloud.baidu.com/#/live_detail?liveId=303&linkToken=HCE21

直播简介：百度大脑已全面开放业界领先的语音识别服务，包含：短语音识别、短语音识别极速版、实时语音识别、音频文件转写、呼叫中心语音；通过语音自训练平台，可零代码自助训练语音识别的语言模型，有效提升业务领域的识别准确率。

百度语音识别采用国际领先的流式端到端语音语言一体化建模算法，近场中文普通话识别准确率达 98%；支持多语种和多方言识别，将语音快速准确识别为文字。适用于手机应用语音输入、语音指令、智能对话交互、语音内容分析质检、视频字幕、会议纪要等多个场景。目前已广泛应用于在线教育、视频直播、电话客服、快递物流、智慧办公、智能硬件多种行业。

本次直播将围绕百度语音识别产品进行讲解，并结合应用场景和案例进行分析；让开发者更能理解百度语音产品性能，更好的匹配使用场景。

对语音识别、语音合成等技术感兴趣的小伙伴可以先来 Q 讨论：717905712 ；提出你们希望了解的内容，我们会在直播中做解答。

nlp 求教，例如这段文字，如何通过机器学习做到是新冠相关的新闻？

2020-10-15T04:42:22Z

[青岛市卫生健康委党组书记、主任隋振华停职] 财联社 10 月 15 日讯，据青岛发布，10 月 14 日，青岛市委研究决定：市卫生健康委党组书记、主任隋振华停职，接受进一步调查；委派市委组织部常务副部长杨锡祥主持市卫生健康委全面工作。10 月 15 日，青岛市卫生健康委党组研究决定：市胸科医院党委副书记、院长邓凯免职，接受进一步调查。

全文中没提到新冠肺炎的字眼，如何做到关联？

主题模型使用经验

2020-07-24T07:31:06Z

最近学术圈和工业界都玩变形金刚和注意力都很开心，时不时的还搞个不大不小的新闻。不过说到具体真的用起来，不是所有的 transformer 都能直接应用到所有场合。Topic Models 也有很久了，其实结果很惊艳的。只是大家都去做深度学习，没有太多实用化的推进。之前也看过腾讯内部有改进主题模型，不过那个算是企业内部模型，不开源，接触到的人很少。

前几天发现了一个叫做 TopSBM 的模型，2018 年发表的。将网络分析和主题模型结合在一起，彻底抛去了那个奇怪的 Dirichlet 先验分布，所以拟合出来的主题效果很好。在公司的数据上跑了一下，好到惊艳。下面总结一下自己使用主题模型的经验。

如果不知道主题数，那么用 TopSBM 。
如果知道了主题数，而且知道了每个主题中需要包括哪几个词，用 CorEX，也就是 anchored topic models.
两者结合也是个不错的主意。

虽然说 TopSBM 是一个特别好的模型，但是也是一个主题模型，纯 CPU 计算，数据量一上来就特别特别慢。在大概 11K 文档上跑了接近 9 个小时才跑出来结果。

工作么找不到，大家来聊聊你用 Sentiment analysis 做过哪些有趣的事

2020-06-23T04:22:54Z

前情 https://v2ex.com/t/683187#reply31

古兰经的文本情感分析，与其六大要义不谋而合

有检测合同合法性的实战教程么？

2020-05-09T06:25:44Z

内容重点：因为偶尔自学 python，看的东西杂又不精，偶尔翻到 nlp 相关的内容，发现如下内容：PyCon China2019 中藤井美娜，里面提到过用 python，结巴分词，word2vec 之类处理，用大量的合同进行训练，然后折腾出模型，对一个新的合同内容进行风险预测地址是 https://www.bilibili.com/video/av75148536?p=10 但是内容中没有具体代码，所以请问有谁有实战教程么？

针对中文无监督文本切分的优质路子有哪些？

2020-04-15T02:13:38Z

具体案例是：“《步步惊心》改编自著名作家桐华的同名清穿小说《甄嬛传》改编自流潋紫所著的同名小说电视剧《何以笙箫默》改编自顾漫同名小说《花千骨》改编自 fresh 果果同名小说《裸婚时代》是月影兰析创作的一部情感小说《琅琊榜》是根据海宴同名网络小说改编电视剧《宫锁心玉》，又名《宫》《雪豹》，该剧改编自网络小说《特战先驱》《我是特种兵》由红遍网络的小说《最后一颗子弹留给我》改编电视剧《来不及说我爱你》改编自匪我思存同名小说《来不及说我爱你》”这么长的一条样本进行实体关系抽取，我尼玛，不切分直接 gank，召回率低得无法直视。

Bert 实践遇坑

2020-04-06T14:41:19Z

Bert 做中文分类任务，使用的模型是哈工大讯飞开源的中文预训练模型 roberta-wwm-large，按照网上的教程修改了 run-classifier.py ，然后运行之后报了 KeyError 的错。已经加载了 110000 条数据的情况下报错，感觉应该是 id 为 110000 多的某条数据有问题，但是是什么问题并不清楚，请看官们分析一下。我将 csv 格式的数据集的 label 一列打印，是 0-10 的 11 个数字没错，并没有出现 keyerror 后面的中文，但是根据报错的信息应该是我的 label 错了，我不知道是什么情况，难顶。

抓到了一个 ML 新闻训练爬虫网站？

2020-01-16T09:50:58Z

http://www.csyfyy.com/list/8993/

感受一下，标题读起来正常，正文基本就是牛头马嘴，但是还是有一些关键字点题。这是 NLG 吗？

求推荐好的知识图谱研究领域的相关教程、书籍或视频教程？

2019-11-03T07:38:50Z

一款语料处理 Python 辅助工具，能自动计算标注偏移量，各位看看是否有帮助

2019-08-03T12:19:00Z

为公司帮助处理语料时做了 ltext 这个工具。

基本思路是，把文本和标注（用偏移量表达）封装在一个对象中，对外模拟字符串类型的接口做各种文本操作，比如 replace 和 strip 等方法。在这些方法执行时，改动文本同时操作偏移量。

请各位看看这个情景多不多，封装是不是恰当？

或者还需要增加什么功能。目前只实现了 replace、re_replace 两个方法。

自然语言处理实习生

2019-07-25T02:50:18Z

关于智言：智言科技于 2016 年 9 月在深圳成立，致力于开发金融领域的 AI 智能平台和智能 AI 云服务，中国最专业的金融知识图谱问答提供商，为保险、证券、银行打造国际领先的定制化 AI 解决方案。应用场景涵盖 AI 智能助理、智能销售服务助手、智能语音助手、智能舆情分析平台等，可提供智能客服、业务直达、业务咨询、语音下单等服务，将数据转为企业财富，辅助业务决策。同时深度挖掘数据价值，进行 360°客户分析，实现获客及精准营销。是腾讯 AI 加速器和京东 AI 加速器成员。拥有国家知识产权局审查初审发明专利 4 项；计算机软著著作权共 15 项。80%员工为技术开发人员，公司研发团队组成 45 人专业研发团队，这些骨干人员具有长期的大数据或工业领域研发经验和企业方案解决经验，积累和建立了很强的系统设计和开发能力，且具备很强的专业性和职业性，建立了较完善的研发环境。

核心技术
专注于语义理解、知识图谱和深度学习的技术突破，通过累积海量的对话交互数据，以知识图谱为支撑，为保险公司打造国际领先的定制化 AI 解决方案。 —————————————————————————————————————————————————————————————————— 自然语言处理实习生：岗位职责： 1、参与算法中台的能力扩展和模型开发； 2、参与 NLP 算法的优化和落地； 3、对 SOTA 的算法进行调研和实现； 4、结合实际产品提出新的解决方案。

岗位要求： 1、有 NLP 研究相关领域的经验，最好具有句法语义分析、信息提取、问答系统等相关知识； 2、有机器学习深度学习等实践经验； 3、了解常用 NN 模型如：Fasttext，CNN，HAN，ELMo 等； 4、有较强的编程能力，熟练 python，熟悉 TensorFlow ； 5、对用技术解决实际问题有强烈兴趣。 ——————————————————————————————————————————————————————————————————

简历投递： hr@webot.ai ；提供转正（算法工程师等）机会，欢迎相关专业的博士和优秀硕士生。

[百度智能驾驶事业群车联网] 求自然语音处理架构师，负责车联网负载智能语音助手语义产品的架构和算法整体设计， base 深圳，简历至 linmiaoxuan@baidu.com

2019-07-16T12:14:53Z

自然语言处理架构师

岗位职责:
1、负责车载智能语音助手语义产品的架构和算法整体设计工作
2、针对海量车载用户产生的自然语言文本内容，结合深度学习等前沿技术进行中文分词、实体识别、情感分析、自动分类等各种文本挖掘的研发工作
3、负责智能车载语音助手的自然语义理解产品相关的算法开发、模型训练和调参等工作
4、负责已有自然语言产品的召回率、准确率优化，提高用户体验

任职要求:
1、硕士及以上学历，计算机和数学等相关专业
2、精通 python/c++编程语言
3、熟悉常见的机器学习和自然语言处理算法，有智能语音助手语义理解研发经验优先
4、有使用过 paddlepaddle、tensorflow、scikit-learn、gensim、word2vec 等软件包者优先
5、有离线 NLU 开发经验优先；
6、良好的团队合作和沟通能力，快速准确的理解能力，极强的自我驱动力，有一定的抗压能力，有责任心，对解决问题充满热情。

三篇关于 BERT/ERNIE 源码解析的博文

2019-05-20T16:35:32Z

BERT 系列：辅助任务解析

BERT 系列：数据预处理源码解析

BERT 系列：ERNIE 中文训练数据预处理

有将自然语言转为对应命令的服务或开源项目吗

2019-05-17T02:33:52Z

就是能把接收到的自然语言处理为命令库中对应的命令。比如 “帮我搜一下 XXXX ” 和 “ XXXX 是什么意思” 处理为同一个命令，当然 “ XXXX ” 是作为命令的参数

关于短信内容二分类，请指点一下

2019-04-22T05:25:52Z

刚进入实验室，老师布置了一个任务，就是对于一条中文短信内容，判断其是否属于广告类的短信。老师提示可以考虑使用朴素贝叶斯算法，分词可以用库，要求一周内完成。由于原来没有接触过自然语言处理，对此有点不知如何下手，只知道分词，条件概率这些东西，看了网上一堆博客也有点懵，想请大家指点一下，这样一个分类器的处理流程应该是怎样的，分成一些什么步骤，万分感谢。

V 站的中分分词怎么能做到如此之快的

2019-03-26T02:53:35Z

目前使用了 php jieba 分词，加载了自己的词库，14 万行的词库，速度太慢。有什么好的解决方法吗？

中文分词在线接口 API 需求调查

2019-02-25T08:33:36Z

准备提供一个：中文分词在线接口 API
功能：中文分词，初级的实体识别
费用：每日 3000 次以内免费
原因：目前 JCJC 错别字检测服务器有 5 台服务器，部分资源闲置。

调查内容：
大家对：中文分词在线服务，有那些期望呢？

谢谢大家

电商环境下如何定义两个类别是否相似

2018-12-19T15:55:45Z

比如衣服、裤子，再比如 3C、生鲜，我想到的有：用 gensim 计算相似；根据用户对这两个类目的共同行为来定义，比如都买过 /收藏、点击两个类目的东西，大家有什么好的建议吗

Poplar - 基于 Web 技术的 NLP 文本标注工具

2018-08-25T09:03:43Z

Poplar 是由我们森亿智能 AI 团队自主研发的 NLP 文本标注工具。基于内部版本的 NLP 标注系统已经稳定运行了两年，而这次经过了重新设计后以 GPLv3 协议开源。

文本标注的效果如下图：

这个工具的灵感主要来源于 brat ，而相对于 brat，poplar 采用了更加现代的 Web 技术进行开发，我们选用了 Typescript 作为开发语言，使用了 RxJS 与 Svg.js 等库，同时借鉴了一些 Flux 和 DDD 的思想，因此使项目在保证一定开发规范的前提下，达到了不错的实用效果。

Github: https://github.com/synyi/poplar
Demo：https://synyi.github.io/poplar/
Developer's Guide：https://github.com/synyi/poplar/blob/master/doc/Develop_Guides.md

欢迎有需要的同学使用我们的 demo 项目来解决一些简单的标注问题，也欢迎大家到我们的项目里提交 issue 或 star 来支持我们的项目。

求 [自然语言处理算法工程师]18-30K 坐标北京朝阳硕士及以上

2018-08-13T08:17:13Z

秘塔科技是一家应用人工智能在行业落地的初创公司。采用人工智能智能技术对十亿级别非结构化数据进行深度分析处理，多模态数据整合，致力于改善行业从业者工作效率，提高行业生产力。

秘塔团队将与行业专家进行战略合作，进行产品研发。希望你能对创造新产品有兴趣有热情，与算法团队配合，结合需求，定义产品，将基于人工智能技术的数据产品工程落地。

职位描述
1. 负责机器学习、深度学习方法在自然语言处理 /理解领域的探索与研究
2. 负责文本数据的结构化信息抽取，数据清洗和标签预测
3. 对具体业务选取和开发合适的机器学习算法模型，解决复杂的业务问题

职位要求
1. 计算机基础知识体系扎实
2. 了解基本的统计机器学习算法
3. 熟练掌握 C/C++/Python 语言，能进行算法复杂度分析
4. 熟悉一个或多个常见的深度学习开源工具库，如 PyTorch，Tensorflow 等
5. 有很好的团队合作与沟通能力

加分项
1. 了解条件语言模型如 Seq2Seq，ConvSeq，Transformer，Weighted Transformer
2. 关注国内外机器学习领域的最新进展
3. 国内外会议或期刊发表过机器学习领域的论文

投递方式： sunxiaohan@metasota.ai

MicroTokenizer: 一个面向教学的微型中文分词引擎

2018-06-15T06:10:06Z

微型中文分词器

一个微型的中文分词器，能够按照词语的频率（概率）来利用构建 DAG （有向无环图）来分词。

特点 / 特色

微型：主要代码只有一个文件，不足 200 行
面向教育：可以导出 graphml 格式的图结构文件，辅助学习者理解算法过程
良好的分词性能：由于使用类似 结巴分词 的算法，具有良好的分词性能
具有良好的扩展性：使用和 结巴分词 一样的字典文件，可以轻松添加自定义字典

演示

在线演示

在线的 Jupyter Notebook 在

离线演示

分词

代码：

import MicroTokenizer tokens = MicroTokenizer.cut("知识就是力量") print(tokens)

输出：

['知识', '就是', '力量']

有向无环图效果演示

备注

和是图的起始和结束节点，不是实际要分词的文本
图中 Edge 上标注的是 log(下一个节点的概率的倒数)
最短路径已经用 深绿色 作了标记

项目地址

https://github.com/howl-anderson/MicroTokenizer

开发者

Xiaoquan Kong @ https://github.com/howl-anderson

依赖

只在 python 3.5+ 环境测试过，其他环境不做兼容性保障。

安装

pip install git+https://github.com/howl-anderson/MicroTokenizer.git

如何使用

分词

见上文

导出 GraphML 文件

from MicroTokenizer.MicroTokenizer import MicroTokenizer micro_tokenizer = MicroTokenizer() micro_tokenizer.build_graph("知识就是力量") micro_tokenizer.write_graphml("output.graphml")

学习笔记 CB014:TensorFlow seq2seq 模型步步进阶

2018-05-05T15:16:00Z

https://www.jianshu.com/p/451d87b12477

自然语言处理

有人能编译跑通 seamlessM4t 吗？

上海某私募 招聘量化研究员（算法模型，深度学习算法，语音算法， nlp， cv，强化学习等方向）

如何快速接入一个有 MCP 能力的 LLM?

有朋友正在学习 nlp 吗？

国内的翻译平台似乎有一个普遍的 bug

[请教] [可有偿] 请问有没有懂自然语言处理的大佬，想请教几个问题

高质量数据集对模型开发和 fine-tune 的重要性

请教下本地部署的语音转文字应用

有没有什么语法检查的模型啊？

我是国内的 NLP 从业者，大模型这一波风吹过来了，在公司做大模型感觉前途未卜的样子

[求助]kaggle 中训练模型遇到的一些问题

请问有哪些文章改写润色的开源实现啊

有没有文本内容标注的成熟项目。

NLP 有没有这样的模型，比如搜索 fetch 请求，自动帮你把 fetch/xhr/request 的数据相关性较高的内容展示出来的

GPT 用于知识图谱构建的 NER 和 RE

深度学习如何运用到区块链中？

Vecuna 7b 部署与实践

请教一下此类场景在 NLP 中属于哪个功能分支，可否通过 NLP 相关模型实现

如何根据浏览记录关键词对用户做聚类分析？

如何根据浏览记录关键词对用户做聚类分析？

诚招语言模型训练实习生

有什么办法能获取一个城市下的地名？

博客根据文章内容跑自然语言分析自动识别关键字，有什么廉价的实现方法吗？

请教一个 NLP 的问题

使用 NLP 从书中提取各个角色的台词

Feishu(飞书) 聊天机器人应用 - 定制对话，实现知识库、信息查询、意图识别、多轮对话

Chatopera 飞书 Custom App

开源项目

Snowboy 离线唤醒 2021 年开始就停止维护，有没有其他大厂的产品可以替代使用？

2070s 跑不了 gpt2

深度学习工程师， 80-200W，杭州，幻方 AI Lab

[周三（10.21）分享日] 百度 AI 语音识别应用与场景案例分享

nlp 求教，例如这段文字，如何通过机器学习做到是新冠相关的新闻？

主题模型使用经验

工作么找不到，大家来聊聊你用 Sentiment analysis 做过哪些有趣的事

有检测合同合法性的实战教程么？

针对中文无监督文本切分的优质路子有哪些？

Bert 实践遇坑

抓到了一个 ML 新闻训练爬虫网站？

求推荐好的知识图谱研究领域的相关教程、书籍或视频教程？

一款语料处理 Python 辅助工具，能自动计算标注偏移量，各位看看是否有帮助

自然语言处理实习生

[百度智能驾驶事业群车联网] 求自然语音处理架构师，负责车联网负载智能语音助手语义产品的架构和算法整体设计， base 深圳，简历至 linmiaoxuan@baidu.com

三篇关于 BERT/ERNIE 源码解析的博文

有将自然语言转为对应命令的服务或开源项目吗

关于短信内容二分类，请指点一下

V 站的中分分词怎么能做到如此之快的

中文分词在线接口 API 需求调查

电商环境下如何定义两个类别是否相似

Poplar - 基于 Web 技术的 NLP 文本标注工具

求 [自然语言处理算法工程师]18-30K 坐标北京朝阳 硕士及以上

MicroTokenizer: 一个面向教学的微型中文分词引擎

微型中文分词器

特点 / 特色

演示

在线演示

离线演示

分词

有向无环图效果演示

备注

更多演示

"王小明在北京的清华大学读书"

项目地址

开发者

依赖

安装

如何使用

分词

导出 GraphML 文件

学习笔记 CB014:TensorFlow seq2seq 模型步步进阶

上海某私募招聘量化研究员（算法模型，深度学习算法，语音算法， nlp， cv，强化学习等方向）

求 [自然语言处理算法工程师]18-30K 坐标北京朝阳硕士及以上