*瞎掰一点,希望没有太多错误

取决于能力、资金以及需求等众多要素
不需要强编程能力、只需要有阅读和动手能力的:
- 想要一个在对话中有个性的AI:找点教程部署一个Open WebUI、Chatbox什么的本地对话平台,然后注册一个API接入进去,调整Prompt即可
- 想要一个有动态记忆、能调用工具的对话AI:可以看看Letta,它为无状态LLM搭建了一个记忆和工具调用框架,让LLM每次回复都伴随着各种操作的自主执行,比如编辑记忆、执行搜索等
- 想要一个可以自说自话、进行直播的AI:可以看看Open LLM Vtuber项目,它搭建了一个LLM直播的框架,也整合了(基于关键词检测的)Live2D操控、直播平台Chat接入等功能,其“自说自话”功能是用固定提示语作为输入的。虽然没有自带的记忆管理,但它可以调用Letta API
有Python编程能力的
- 可以为Letta开发一些供调用的工具,乃至围绕Letta API包装一个类似Open LLM Vtuber的程序
- 架构自定义的直播AI:思路可以参考我受Letta启发搞的仿真牛 https://b23.tv/tJV7omV ,但做挺烂的,不建议使用()主要逻辑就是自主编辑记忆、动态提示词、工具调用那一套
需要一定性能设备或资金投入的
- 使用强度上来之后就会发现,通用模型不论规模、不管是API还是本地部署,说话风格啥的细节可能都差点意思,API的速度可能还不太给力,那就要进行LLM微调,这一部分找点相关教程即可,但好显卡或者租算力是刚需
- Neuro的模型不会很大,但肯定不会小,我瞎猜一下在14-32B左右😋
- Neuro是分布式运行在服务器上的,只是Live2D的部分跑在本地电脑中,LLM使用云端算力推理,所以牢🐢也说成本很高
需要具有更多编程能力的地方
- Neuro是多模块的,除了LLM之外还有其他AI,比如玩Osu或者MC的模块,以及视觉识别模块(应该不是原生多模态的吧)、语音转文字模块(这个可能用了现成的),原理通常和LLM都不一样
- 虽然Neuro是调用的Azure TTS(en-US-Ashley,音高1.25左右),但Evil的TTS看着是🐢自己训练和托管的AI语音,有底模可能好办一些,没有的话也得从零开始自制(比如难产的Neuro V3语音)
- 对接Live2D的部分需要会Unity3D开发,具体忘记是啥了,反正不是Python
- 还有更多领域不仅要掌握,同样还要和核心部分对接整合