在人工智能的发展历程中,数据的质量和量决定了模型性能的上限。随着技术的进步,大模型利用海量数据训练成为了行业的共识,但这一方法在垂直领域的应用效果往往只能达到 60-70 分的水平。为了实现 AI 技术的实际落地,特别是在精细化、专业化的场景中达到至少 90 分的性能要求,开发专业的模型或对大模型进行 fine-tune 变得尤为关键。
垂直领域应用落地的挑战
大型通用模型虽然能够处理广泛的任务,但在特定的垂直领域往往难以达到理想的效果。这是因为垂直领域的数据具有独特性和专业性,需要模型具备更细致的理解能力。例如,在医疗影像识别领域,模型需要能够准确识别和区分各种疾病特征,这要求训练数据不仅要量大,更要质优。 很多模型开发者由于各种原因,会使用公开数据集。而对于工业界而言,公开数据集往往不具备实际应用价值。这是因为大多数公开数据集无法真实反映现实世界的复杂性和多样性,从而导致在实际应用中模型表现不佳。实际上,使用大量质量参差不齐的数据开发模型往往会适得其反,模型的表现可能因此受到负面影响。
高质量数据集的必要性
高质量的数据集是指数据完整、准确、丰富且分布符合实际应用场景的数据集。这样的数据集对模型的开发和 fine-tune 至关重要,原因如下:
后面我们希望为大家建立一个 AI 数据管理平台,专注于服务模型开发、Fine-tune 和 prompt 团队,第一步我们将开发一个数据标签的定义与协作平台,希望能在数据管理层面帮到大家。 我们不生产数据,我们只是数据的管理者。
]]>chatgpt 上自己做一些提示词的测试,gpt-4 的表现优于 gpt-3.5 ,能够得出更接近预期的答复。但是也有几个问题:
目前的设想是基于 gpt-3.5 ,结合提示词的优化达到尽可能高的效果,结合人工矫正后的例子来更好地帮助模型理解。如果有朋友做类似的工作,希望一起交流探讨一下。
]]>其中关键信息有:工序名称,产品型号,数量,批次,接收人等。规定的流转格式是:
封装转测试 HP-10010 10 只 2301 批 @张三
但是具体到操作员发到群聊的时候,就变味了,各种五花八门的表达都有,这也就导致原本可以使用正则来提取信息变得困难,比如:
转测试 HP-10010 10 只 2306 周 @张三 HP-10010 转高低温测试 10 只 2306 周 @张三
如果用 NLP 来处理,如分词、词法分析、自动摘要,都不符合上述场景。
所以请教大家,有没有一个 NLP 功能,我可以自定义词库,如产品型号、工序名称,使得它能正确的识别到这是 1 段关于工序流转的语言,从而提取出关键信息。
]]>是这样,工作中一直用 tableau 做简单的可视化分析,例如根据用户的使用次数、历史记录关键词词云、主题分布做简单的资源推荐,用户的行为分为检索、浏览、下载三种,其中浏览过且未下载的部分是自愿的推荐点。
如今我想做进一步的分析,思路是想根据用户使用历史的关键词做聚类,然后找到他们浏览过且未下载的资源的特征,然后做可视化分析。
现在已经用 jieba 做好了分词,卡在了根据每个 session id 的关键词聚类分析,想请教各位大佬,给点启发,万谢~
]]>坐标北京市海淀区中关村壹号,投递方式: https://inspirai.jobs.feishu.cn/941272/position/7117470273036962061/detail 或邮件: changjianbin@inspirai.com
]]>谢谢大家,不知道站长能不能分享下 v2 实现思路。 @Livid
]]>牛顿冷却定律在得到 APP 的实践背景介绍「得到锦囊」产品刚上线时,该版块首页的最热排序暴露了两个问题:分页时数据重复和最热榜单被霸屏,本文将围绕解决这两个问题来展开,介绍下如何参考牛顿冷却定律来优化最热内容的排序。“牛顿冷却定律”本质上它描述了高于周围温度的物体会向外散热,并逐渐降温的过程,同时单位时间内散热与周围温差会成正比关系。通过建立”温度”与”时间”之间的函数关系,构建一个”指数式衰减”( Exponential decay )的过程。如果我们把”热文排名”想象成一个”自然冷却”的过程,那么如下的场景是成立的:任一时刻,网站中所有的文章,都有一个”当前温度”,温度最高的文章就排在第一位。随着时间流逝,所有文章的温度都逐渐”冷却”。一、最热榜单暴露的问题 2020 年 1 月初,得到 App 的新产品「得到锦囊」正式上线。产品刚上线时,版块首页的最热排序模块,暴露出了两个问题:分页时数据重复和最热榜单被霸屏,本文将围绕解决这两个问题来展开。排序规则与朴素的实现方案产品需求定义的最热排序规则是:按照问题的总查看量来倒序排列,且有分页和查询条件。服务端对于这种场景,最简单高效的实现方式,就是利用 sql 的 query 语句了,于是我们就直接 [order by {问题的查看量} desc] 来实现了。总查看数 = 获得查看权益的用户数 = 购买数 + 赠一得一领取数这个简单朴素的实现方式,在加上缓存策略,使得我们用较小的成本就满足了产品需求,也应对了较高的流量。
如上述语句,可以提取出:“牛顿冷却定律”,“得到锦囊”,“热榜单霸屏” 等短语,感谢。
]]>通过 Feishu 开放平台和 Chatopera 机器人平台上线企业聊天机器人服务。
https://github.com/chatopera/chatopera.feishu
sphinx 生成的中文语音模型过于通用,只要普通话标准谁都可以识别到。 之前 Snowboy 生成的 pmdl 语音模型还有一定的识别度,识别自己的语音准确度会高些。
]]>设计开拓性的新的深度神经网络
构建科学、严谨的算法评测体系
紧跟领域前沿,推动基础研究
要求:
精通机器学习(深度学习),具备创新研究能力。
编程能力出色,熟练掌握至少两种编程语言,熟练掌握 Tensorflow/Pytorch 。
有丰富的研究成果,在国际顶会或期刊发表相关论文(包括但不限于 NIPS, ICML, CVPR, COLT)。
在领域内知名比赛取得优异成绩者优先。
认同开放共进的企业文化,积极创新,乐于挑战,良好的逻辑思维、沟通协调和自我学习能力,主动负责,严谨细致,勤奋踏实。
另外还有深度学习初级工程师、实习生等多种职位,欢迎投递简历
]]>全文中没提到新冠肺炎的字眼,如何做到关联?
]]>前几天发现了一个叫做 TopSBM 的模型,2018 年发表的。将网络分析和主题模型结合在一起,彻底抛去了那个奇怪的 Dirichlet 先验分布,所以拟合出来的主题效果很好。在公司的数据上跑了一下,好到惊艳。下面总结一下自己使用主题模型的经验。
虽然说 TopSBM 是一个特别好的模型,但是也是一个主题模型,纯 CPU 计算,数据量一上来就特别特别慢。在大概 11K 文档上跑了接近 9 个小时才跑出来结果。
]]>古兰经的文本情感分析,与其六大要义不谋而合
感受一下,标题读起来正常,正文基本就是牛头马嘴,但是还是有一些关键字点题。这是 NLG 吗?
]]>基本思路是,把文本和标注(用偏移量表达)封装在一个对象中,对外模拟字符串类型的接口做各种文本操作,比如 replace 和 strip 等方法。在这些方法执行时,改动文本同时操作偏移量。
请各位看看这个情景多不多,封装是不是恰当?
或者还需要增加什么功能。目前只实现了 replace、re_replace 两个方法。
]]>核心技术
专注于语义理解、知识图谱和深度学习的技术突破,通过累积海量的对话交互数据,以知识图谱为支撑,为保险公司打造国际领先的定制化 AI 解决方案。 —————————————————————————————————————————————————————————————————— 自然语言处理实习生: 岗位职责: 1、参与算法中台的能力扩展和模型开发; 2、参与 NLP 算法的优化和落地; 3、对 SOTA 的算法进行调研和实现; 4、结合实际产品提出新的解决方案。
岗位要求: 1、有 NLP 研究相关领域的经验,最好具有句法语义分析、信息提取、问答系统等相关知识; 2、有机器学习深度学习等实践经验; 3、了解常用 NN 模型如:Fasttext,CNN,HAN,ELMo 等; 4、有较强的编程能力,熟练 python,熟悉 TensorFlow ; 5、对用技术解决实际问题有强烈兴趣。 ——————————————————————————————————————————————————————————————————
简历投递: hr@webot.ai ;提供转正(算法工程师等)机会,欢迎相关专业的博士和优秀硕士生。
]]>文本标注的效果如下图:
这个工具的灵感主要来源于 brat ,而相对于 brat,poplar 采用了更加现代的 Web 技术进行开发,我们选用了 Typescript 作为开发语言,使用了 RxJS 与 Svg.js 等库,同时借鉴了一些 Flux 和 DDD 的思想,因此使项目在保证一定开发规范的前提下,达到了不错的实用效果。
欢迎有需要的同学使用我们的 demo 项目来解决一些简单的标注问题,也欢迎大家到我们的项目里提交 issue 或 star 来支持我们的项目。
]]>一个微型的中文分词器,能够按照词语的频率(概率)来利用构建 DAG (有向无环图)来分词。
graphml
格式的图结构文件,辅助学习者理解算法过程结巴分词
的算法,具有良好的分词性能结巴分词
一样的字典文件,可以轻松添加自定义字典代码:
import MicroTokenizer tokens = MicroTokenizer.cut("知识就是力量") print(tokens)
输出:
['知识', '就是', '力量']
<s>
和 </s>
是图的起始和结束节点,不是实际要分词的文本log(下一个节点的概率的倒数)
深绿色
作了标记https://github.com/howl-anderson/MicroTokenizer
Xiaoquan Kong @ https://github.com/howl-anderson
只在 python 3.5+ 环境测试过,其他环境不做兼容性保障。
pip install git+https://github.com/howl-anderson/MicroTokenizer.git
见上文
from MicroTokenizer.MicroTokenizer import MicroTokenizer micro_tokenizer = MicroTokenizer() micro_tokenizer.build_graph("知识就是力量") micro_tokenizer.write_graphml("output.graphml")
]]>