2024-1-9-英伟达 LLM day.pdf

2024-06-11 15:12
2024-1-9-英伟达 LLM day.pdf

利用GPU加速Milvus赋能LLM应用讲师介绍李成龙开源布道师西安交通大学chenglong.li@zilliz.com01Milvus架构演进及功能介绍目录02基于NVIDIAGPU加速Milvus获取10倍性能提升03应用分享:RAG知识库+推荐系统01Milvus架构演进及功能介绍什么是Milvus什么是Milvus•VectorDatabasehttps://db-engines.com/en/ranking•LinuxAI&DataFoundationGraduationProjecthttps://lfaidata.foundation/projects/milvus/•Githubopensourceproject(20000+stars)https://github.com/milvus-io/milvusMilvus演进历程TheIdea2018.10Milvus0.1Release2019.041stSeedUser2019.06JoinedLF&AI2020.03Milvus1.0Release2021.03Milvus2.0Release2022.02Milvus2.1Release2022.07OpenSource2019.10Milvus2.2Release2022.11Milvus2.3Release2023.08Milvus用户生态Milvus被全球超过5000家企业用户所信赖,超过1000万次下载和安装,最大库规模超过20亿条向量MilvusGithubStar数目超过2.3万,贡献者人数超过200Milvus在SIGMOD和VLDB等数据库顶会上发表了论文,奠定了向量数据库的基础•百亿规模向量扩展性•存储计算分离•离在线一体化•基于K8s实现高可用容灾CloudNative云原生分布式Milvus-全球第一款开源向量数据库•向量与标量混合查询•提供标量倒排索引支持•集成了FAISS、HNSW、DISKANN等SOTA向量索引PluggableEngine可插拔引擎•查询速度高于ES10倍,高于主流竞品2倍•毫秒级延迟响应•查询性能根据物理资源线性扩展BlazingFast超高性能•提供从笔记本,到线下机房到云完全一致的使用体验UnifyCloudandDesktop云端一体•丰富的部署方式,可观测性支持Milvus为云而生的向量数据库•分布式云原生,基于K8s进行微服务化设计•存储计算分离,弹性扩缩容•高可用,故障分钟级恢复•百亿级向量的扩展能力•基于消息队列实现数据的实时增删•集成OpenAI,Langchain,Huggingface,Pytorch等AI生态•强大的生态工具-GUI,CLI,监控,备份查询能力TOP-K近似查询RANGE近似查询表达式过滤与近似查询混合按表达式过滤按主键查询数据类型数据类型查询能力VECTOR(BINARY_VECTOR,FLOAT_VECTOR)近似查询JSON表达式匹配过滤ARRAY表达式匹配过滤BOOL表达式匹配过滤INT(INT8,INT16,INT32,INT64)INT64主键查询表达式匹配过滤FLOAT(FLOAT,DOUBLE)表达式匹配过滤VARCHAR(VARCHAR,STRING)STRING主键查询表达式匹配过滤全文检索+多向量支持+多路召回+排序(即将发布,敬请期待)向量数据库Search流水线ZillizCloud功能架构计算实例适配与软硬联合调优多层存储适配与数据布局优化资源管理调度负载均衡网络控制系统与数据安全向量数据库框架商业版引擎组织与权限管理多AZ高可用扩缩容与弹性能力备份恢复多实例类型监控告警池化鉴权访问控制智能调优审计生态工具对接向量数据库API管控API接口层功能层基础设施层02基于NVIDIAGPU加速Milvus获取10倍性能提升RAFT-ReusableAcceleratedFunctionsandTools(2.3)16•NVIDIA’sGPU-basedANNSlib•支持IVFFLAT,IVFPQ•Milvus和RAFT的集成代码由NVIDIA贡献•GPU搜索瓶颈在于查询向量从内存到显存的拷贝,在大NQ(>100)的场景下性能最好RAFTinMilvus17GPU索引性能-Search18DatasetsSIFTGISTGLOVEDEEPHNSW(VPS)14,53779115165761IVF-FLAT(VPS)3097142791723RAFT-IVF-FLAT(VPS)121,568573720,16316,557comparedRAFT-IVF-FlatwithIVF-FlatandHNSWatarecallrateof95%GPU索引性能-Search19DatasetsSIFTGISTGLOVEDEEPHNSW(VPS)20,8092593800513,291RAFT-IVF-PQ(VPS)271,885744838,98980,363comparedRAFT-IVF-PQwithHNSWatarecallrateof80%GPU索引性能-Build20IndexTypeIndexParamCPUGPUIVF-FLATnlist=40961180.32s285.28sIVF-PQnlist=4096,m=32,nbits=81267s289sTestDataScale:Sift-100mDimension:128GPU索引典型应用21•高VPS查询•图片分类归档•推荐系统•高数据实时性•新闻检索/去重•视频实时检索•社交用户检索•电商商品检索03应用分享:RAG知识库+推荐系统应用场景向量数据库场景探索多模态搜索大模型缓存写作助手语义搜索以图搜图图片视频音频字词句子段落用户商品电影/音乐文件化学式投资组合搜索OCR人脸、指纹识别海量视频检索视频去重自动驾驶数据检索ASR语音识别声纹识别知识库检索用户自动分类(标签)以图搜商品以文字搜商品UGC图片分析消费者倾向分析搜索词提示全球专利查询社交媒体、用户评论分析实时舆情监控新闻推荐情感分析精准营销(基于用户的协同过滤)精准营销(基于产品的协同过滤)多媒体推荐对话机器人专有知识库图片侵权商标查重涉黄涉恐图片风控视频查重敏感人物片段定位论文查重敏感内容过滤评论刷分检测欺诈检测羊毛党判别高风险行为判定用户信用分评估电商商户评级文件查毒盗版文件检测定位蛋白质靶点投资组合优化疾病诊断智能读片推荐系统大模型增强风控其他ContentScenarioContentRetriever应用场景-大模型增强ChatGPT:•利用大语言模型(LLM)实现以ChatGPT为代表的智能问答Vectordatabase:•通过向量数据库为ChatGPT提供大规模的、可靠的知识库Prompt-as-code:•使用提示匹配用户问题与来自知识库的参考内容https://osschat.iohttps://github.com/zilliztech/akcio面向大模型场景的深度理解•动态Schema•List/Set等数据类型的支持•面向构建SaaS用户,通过Partitionkey能力支持百万级租户•支持磁盘索引-存储成本降

点击免费阅读完整报告
© 2017-2023 上海俟德教育科技有限公司
沪ICP备17027418号-1 | 增值电信业务经营许可证:沪B2-20210551
回顶部
报告群
公众号
小程序
APP
在线客服
收起