梦晨 博雯 发自 凹非寺曾有一位北大硕士生,在校时期一次性在国际顶会ACL中标8篇论文,其中2篇一作,还登上了知乎热搜。
量子位 报道 | 公众号 QbitAI
在读书的时分,周围的评价机制都是非常在意你的论文数量。但是到工业界,我如今曾经不追求数量了,次要是追求做这个工作是不是真的有落地价值,是不是在这个范畴有一些影响力。她在达摩院主导开发了跨言语预训练模型VECO,成为AliceMind八大模型之一。这次AliceMind集体开源,她挑起了大梁。
在学校的时分总是追求提出一个很复杂的模型,大家看不懂,论文评审人也看不懂,但是到工业界的时分就会发现一眼就能看懂并且还有效的模型才是最赞的。这也是她所在的达摩院深度言语模型团队的思绪,他们打造的AliceMind八大模型先后登顶了GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO六大NLP威望榜单。
假如是两年前还在学校的我,会觉得这好简单,我可以加上很多的花式技巧。但是到了工业界要思索到架构在不同业务场景下的通用性,只好牺牲一些复杂风趣的模型设计。AliceMind中的生成式言语模型PALM,则是将预训练目的从重构输入文本,改成了预测后续文本。
AliceMind的这种将Transformer作为一致模型架构的处理方案曾经比较成熟,但要做到更好“跨界”,接上去努力的方向是处理不同类型或粒度输入的深度交融和婚配成绩。从基础模型扩展出才能多样的模型,再把它们在实践业务中结合运用,让AliceMind成了业界才能最片面的深度言语模型体系。
言语模型从训练、微调到蒸馏、紧缩,到整个部署上线都在平台下面完成,上线之后跟业务方的系统连在一同,可以直接嵌到他们的业务逻辑、业务系统外面去。我们更熟习的淘宝拍照识图、天猫精灵智能音箱中也有AliceMind的贡献。
我们这边其实不会一味地追求大,而是非常强调它的落地。一个言语模型从研讨开发到投入实践运用,不是一家企业就能做到的。
欢迎光临 智客公社 (https://bbs.cnaiplus.com/) | Powered by Discuz! X3.5 |