如何建立局部大模型?傻瓜部署指导就在这里:跟我来 如何建立局部大数据系统
摘要:AI大模型在科技圈开始流行。用户不断增长的需求推动了AI技术的演进。随着大型语言模型的应用场景日益增多,它们开始在我们的生活中发挥越来越重要的作用。尤其是在休闲,如何建立局部大模型?傻瓜部署指导就在这里:跟我来 如何建立局部大数据系统
AI大模型在科技圈开始流行。用户不断增长的需求推动了AI技术的演进。随着大型语言模型的应用场景日益增多,它们开始在我们的生活中发挥越来越重要的作用。尤其是在休闲、娱乐和实际工作中,大语言模型的应用越来越普遍。这些模型凭借其自然的语义能力、强大的数据处理能力以及复杂任务的执行效率,为用户提供了前所未有的便利,甚至是人们过去无法想象的数字陪伴感。然而,随着大语言模型的快速普及,云大模型的局限性逐渐显现。连接慢、成本高、数据隐私问题是任何人都无法轻易忽视的热门话题。最重要的是,基于各种制度和伦理的云审查制度进一步限制了大语言模型的自由。本地部署似乎给我们带来了一条新的道路。随着本土大型模型的呼声越来越高,今年Github和Huggingface上涌现了很多相关项目。经过大量研究,我按照示例得到了一种在本地部署大型模型的简单方法。那么,本地部署是锦上添花还是对我们的人工智能体验的史诗般的增强?跟随小雷的脚步,我们一起来玩吧。本地大模型到底是个啥?在开始之前,我们先来谈谈。尽管如此,有些读者可能仍然不理解“本地大模型”的含义,不知道它意味着什么。总而言之,总而言之。现阶段流行的大模型应用,如国外的ChatGPT、Midjourney等,以及国内的文心一言、科大讯飞、KIWI等,基本上都是依靠云服务器来实现各种服务的AI应用。(图片来源:温心一言)他们可以实时更新数据并与搜索引擎集成。他们不需要占用自己的计算机资源。他们把所有的计算过程和负载都放在远程服务器上,他们只需要享受结果即可。换句话说,有网络,就真的牛逼了。但一旦互联网断开,这些依赖于云的AI服务就只能在键盘上输入“GG”。相比之下,本地大模型自然侧重于在设备本地实现AI智能。除了不用担心服务器崩溃带来的问题外,也更有利于保护用户隐私。毕竟,如果大型模型运行在自己的计算机上,那么训练数据将直接存储在计算机中。肯定会比上传到云端然后让服务器计算更加安全,而且也省去了各种伦理道德的云端审计。然而,目前在自己的计算机上构建本地大型模型并不容易。设备要求高是原因之一。毕竟本地大模型需要把整个计算过程和负载都放在自己的电脑上,不仅会占用你电脑的性能,还会使其长时间在中高负载下运行。第二.从Github/Huggingface上琳琅满目的项目来看,要实现这个目标,基本上需要有编程经验。最起码,你需要安装很多运行时库,并在控制台执行一些命令行和配置。别笑,这对于庞大的网友基数来说确实很不容易。那么有没有一种本地应用程序更加“一键式”,只要设置好运行就可以开始对话呢?确实有,Koboldcpp。工具用得好,小白也能搞定本地大模型简单介绍一下,Koboldcpp是一个基于GGML/GGUF模型的推理框架。与llama.cpp底层相同。它使用纯C/C++代码,无需任何额外的依赖库。甚至可以直接通过CPU运行进行推理。(图片来源:PygmalionAIWiki)当然,这会运行得很慢。要使用Koboldcpp,您需要去Github下载您需要的应用程序版本。当然,我也会发布相应的拨号链接,方便大家使用。目前Koboldcpp共有三个版本。koboldcpp_cuda12:目前最理想的版本,只要你有GTX750以上显卡就可以使用,而且模型推理速度最快。koboldcpp_rocm:适合AMD显卡的版本。基于AMDROCm开放软件栈,同规格下推理时间约为N卡版本的3~5倍。koboldcpp_nocuda:仅使用CPU进行推理的版本。功能非常精简。即使相同规格,推理时间依然是N卡版本的10倍以上。(来源:Github)打开软件后,首先可以关注Presets选项。在软件首页的预设中,有多种不同的模式可供选择,例如旧版N卡、新版N卡、A卡、Intel显卡等。默认情况下,不设置任何参数启动只会使用CPU的OpenBLAS进行快速处理和推理,运行速度肯定会很慢。作为N卡用户,我选择CuBLAS。此功能仅适用于NvidiaGPU。我可以看到我的笔记本电脑显卡已被识别。(来源:雷科技)对于没有Intel显卡的用户,可以使用CLblast,这是OPENCL推出的一个可以在生产环境中使用的开源计算库。它最大的特点就是强调多功能性。至于性能,我还没有做过详细的测试。主页上另一个需要调整的部分是ContextSize。为了获得更好的上下文体验,最好将其调整为4096。当然,Size越大,可以记住的上下文越多,但推理速度也会受到明显影响。(来源:雷科技)再往下,就是加载大模型的部分。目前大型开源模型主要是从huggingface.co下载。如果你没有能力出国,也可以从国内的HF-Mirror镜像站或者modelscope社区下载。根据我个人的经验,推荐两款不错的本土大机型:因果LM-7B这是基于LLaMA2和Qwen的模型权重训练的局部大模型。它最大的特点就是原生支持中文。显卡显存小于8G的用户建议下载CausalLM-7B,显卡显存小于8G的用户可以下载CausalLM-14B。效果更好。(来源:modelscope)MythoMax-L2-13B母语是英语的大模特。其特点是文学性较强,能根据要求写出流畅、可读的小说文本。缺点是只能通过输入英文才能获得理想的输出内容。推荐给普通消费者。使用MythoMax-L2-13B。如果你只是想使用一个大的语言模型,那么不需要对其他部分进行调整。只需单击“开始”,您选择的模型就会在本地加载。一般来说,你必须将前端部署到大模型上才能使用。不过Koboldcpp最大的特点是在llama.cpp的基础上增加了多功能的KoboldAPI端口。该端口不仅提供额外的格式支持、稳定的扩散图像生成、良好的向后兼容性,而且还具有持久的故事、编辑工具、保存格式、内存、世界信息、作者注释、角色、场景定制定义功能的简化前端——KoboldLite。大致来说,界面是这样的。(来源:雷科技)功能也非常简单。(来源:雷科技)像这样,加载你拥有的AI对话场景。“保存/加载”也很清楚。您可以保存当前对话并加载并随时继续。在“设置”中,您可以调整一些AI对话选项。(来源:雷科技)其中,温度。代表对话的随机性。值越高,生成的对话就越不可控,甚至可能超出角色设定的范围。重复处罚。它可以抑制对话的重复性,让AI减少重复的讲话。生成对话的长度上限。上限越长,需要的时间就越长。重点是,在实际体验中,过高的生成上限会导致AI胡言乱语。我个人不建议增加这个值。超过240。最大Ctx。代币。是可以给大模型反馈的关键词上限。数据越高,上下文关系越紧密,生成速度就会变慢。完成设置后,您就可以与托德·霍华德进行热烈的交谈了。(来源:雷科技)不能再说话了吗?单击左下角的聊天工具,模型会根据您之前的帖子自动生成回复以推进对话。(来源:雷科技)答案错误,或者谈话进展不顺利?点击右下角的聊天工具,不仅可以重复生成AI问题和答案,甚至可以自己编辑回复,确保对话不会误入歧途。当然,KoboldLite除了对话之外还有更多的可能性。可以连接AI语音和AI绘图端口,这样在对话过程中,可以自动调用AI语言对生成的文本进行配音,并且可以随时调用AI绘图进行绘图两人现在对话的场景。除此之外,您甚至可以使用更高端的SillyTarven前端在对话中嵌入GIF和HTML内容。当然,这些都是以后的事情了。总结好的,部署本地大型模型的教程就到此为止。文中提到的软件和大模型我已经上传到百度网盘了,有兴趣的读者可以自行领取。从我这六个月的经验来看,目前大型本土机型的特点仍然是“可玩性高”。只要你的配置足够,你就可以完全连接大语言模型、AI语音、AI绘图和2D数字人,打造你自己的本地数字人。看着屏幕上栩栩如生的AI角色,一定会非常令人着迷。恍惚感如《serialexperimentslain》。但这类开源大模型的数据通常滞后,专业知识明显缺乏。根据实际测算,大部分知识库要到2022年中期才可用,而且无法调用外部网络资源协助。当你工作和审查信息时,你会遇到很大的限制。在我看来,理想的大语言模型体验应该是端云交互。也就是说,我可以在本地使用自己的大模型构建自己的知识库,但是当我需要使用时间敏感的信息时,我也可以利用互联网的力量来获取最新的信息。这样不仅可以保护个人数据的隐私,也算有效。解决开源大模型信息滞后的问题。至于本地角色交流,如果你有兴趣的话……我整理一下雷霆科技的人物卡怎么样?2024年5月20日至6月30日,618年中特卖即将来临。淘宝、天猫、京东、拼多多、抖音、快手、小红书六大电商平台集体“听意见”,取消了预购。出售,价格疯狂!