爱可可微博热门分享(12.7)
No 1. Vision-is-all-you-need:创新的文档检索系统(V-RAG),无需传统的文本分块,直接利用视觉语言模型处理PDF文档。使用ColPali进行图像嵌入,Qdrant作为向量数据库,配合GPT4-Vision生成响应。基于Modal实现serverless部署,包含FastAPI后端和React前端 No 2. GraphRAG Visualizer:用于可视化和探索微软GraphRAG框架生成数据的Web工具,支持2D/3D图可视化、数据表格展示、搜索功能等。可以通过上传GraphRAG索引管道生成的parquet文件,实现在本地查看和分析数据,包括文档、文本单元、社区、协变量等节点及其关系 No 3. Muggled SAM:简化版的SAM模型,让图像分割更易懂,支持自定义输入分辨率,提升性能 No 4. CRAG:META发布的综合性RAG基准测试工具,专门用于评估检索增强生成(RAG)系统的性能。包含五大领域和八个问题类别的问答数据集,提供模拟网络和知识图谱搜索的API,可以全面评估RAG系统在不同场景下的表现,支持自动化评估打分 No 5. DailyPaper:一个专业的AI论文日报项目,由M-A-P团队维护,每日精选并深度点评arXiv上的最新人工智能相关论文,内容涵盖大语言模型、计算机视觉、多模态等前沿领域,提供专业且富有洞察力的技术评述 No 6. VectorChord:一个为PostgreSQL打造的高性能向量搜索扩展,支持大规模、高效和节省磁盘空间的向量检索。其特点是查询速度比pgvector快3倍,插入吞吐量提升16倍,支持外部索引预计算,能在32GB内存的机器上处理100M个768维向量,并保持较低延迟 No 7. 小智 AI 聊天机器人:基于ESP32+SenseVoice+Qwen72B的开源AI硬件项目。支持Wi-Fi配网和4G通信,具备离线语音唤醒、5种语言识别、声纹识别、流式对话等功能。可自定义角色设定和提示词,支持对话记忆,适合AI硬件开发学习者使用。提供免开发环境固件和详细教程 No 8. llama-chunk:一个基于Llama-70B的创新文本分块策略,针对RAG应用优化。其特色是使用中文字符'段'作为特殊标记,让大模型自动进行语义分块,无需使用正则表达式或人工规则。经测试在法律文本基准上表现优于传统naive方法和语义分块方法,具有更高的检索率和信噪比 No 9. InspireMusic:一个基于PyTorch的音乐生成AI工具包,集成了音乐、歌曲和音频生成功能。使用自回归Transformer和条件流匹配建模(CFM),支持文本提示、音乐风格、音乐结构等可控生成。目前主要支持24kHz单声道音频的文本到音乐生成,未来将扩展到歌曲和音频生成 No 10. fast-music-remover:一个轻量级的音乐和噪音移除工具,专门用于处理YouTube等网络媒体的音频。基于C++开发,使用DeepFilterNet进行音频增强,处理速度快(1分钟视频仅需5秒),可用于课程录制、采访、现场报道等场景的背景音乐和噪音去除 No 11. knowledge-graph-studio:一个开源的知识图谱构建和管理平台,专为RAG应用设计。支持基于规则的实体解析、模块化图谱构建、灵活的数据接入等功能。基于NoSQL数据库构建,提供API优先的设计理念和SDK支持,可用于构建动态的图谱驱动AI工作流,适用于实验性和大规模应用场景 No 12. LLMs-in-Finance:一个关于金融领域大语言模型应用的知识库,涵盖生成式AI、智能代理、RAG检索增强等技术在金融领域的实践。包含了各类金融场景下的LLM应用案例、论文资料、数据集以及多模态金融分析等内容,适合研究金融科技与AI结合的开发者参考 No 13. ShellSage:一个智能化的命令行助手工具,专为系统管理员设计,可帮助解决Shell脚本相关问题。支持Bash命令和脚本、系统管理任务、Git操作、文件管理、进程处理等功能。可在tmux会话中运行,支持管道输入和特定面板上下文选择,极大提升了命令行工作效率 No 14. Deep-ML开放问题库:一个开源的问题库,专注于线性代数、机器学习和深度学习,提供从零开始解决问题的丰富学习体验,助力网站Deep-ML No 15. aisearch-openai-rag-audio:基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答,集成了Azure OpenAI的GPT-4实时语音API,可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景 No 16. [CL]《Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement》 No 17. RAGHub:一个社区驱动的RAG(检索增强生成)资源集合平台,收录了大量RAG相关的框架、项目和工具。包括LangChain、Haystack等主流框架,以及评估优化工具、RAG引擎等多个分类。帮助开发者快速了解和选择合适的RAG技术方案 No 18. awesome-machine-learning-startups:一个全球AI和机器学习创业公司的精选列表,按城市和领域分类整理。涵盖计算机视觉、自然语言处理、机器人、医疗、自动驾驶等多个AI应用领域,包含公司基本信息、LinkedIn链接、融资状态等详细数据 No 19. AkiraDocs:智能文档平台,能够自动编写、翻译和优化文档,让团队专注于创意而非文档管理的复杂性 No 20. 早![太阳] No 21. ComfyUI桌面应用:一个让用户便捷使用ComfyUI的桌面软件,集成了多个工具和服务,自动更新并支持多种平台 No 22. DeepIsles 缺血性脑卒中分割工具:一款用于MRI扫描处理的软件工具,专门针对缺血性脑卒中病灶分割,与ISLES'22 MICCAI挑战赛的领先团队合作开发,提供快速准确的病灶识别 No 23. [LG]《Densing Law of LLMs》 No 24. 机器人安全导航控制:为单个或多机器人导航提供安全关键控制器,包括CBF-QP、MPC-CBF等,支持不同机器人动力学模型,模拟RGB-D相机传感器的感知和绘图,以及单多智能体导航 No 25. Banan-OS 香蕉操作系统:一个用C++编写的爱好操作系统,支持x86_64和i686架构,拥有多处理器支持、网络堆栈和基本图形环境等特性 No 26. 几篇论文实现代码 No 27. 今日推介(第1612期):最小标注对齐、面向数学推理的进化预提示优化、以数据为中心的由弱到强泛化、大语言模型的容量密度增长律、通过大规模多语言训练实现跨语言增强弥合语言差距 ...... No 28. Luna AI换脸:一款企业级AI换脸解决方案,集成AI写真、证件照、数字分身等多功能。支持脸型/表情/光影自动适配,内置10万+艺术写真模板,可进行多人合影换脸。采用分布式集群架构,支持商用级应用部署,包含完整的付费和营销体系 No 29. RoboMatrix:一个以技能为中心的机器人任务规划和执行框架,专为开放世界中的可扩展性设计,能够实现复杂的机器人操作和任务执行 No 30. AI前沿:用最少数据打造强大智能 No 31. Promptic:一个轻量级LLM应用开发框架,类似于Python requests库的简洁设计理念,提供了90%必需的LLM开发功能。支持结构化输出、函数调用、流式响应、对话记忆等特性,基于LiteLLM实现跨平台兼容,让开发者专注于业务功能实现 No 32. [CL]《ALMA: Alignment with Minimal Annotation》 No 33. Amurex:全球首款AI会议助手,帮你不错过会议细节,自动生成总结和行动项,提升会议效率 No 34. 手部动作解码器:通过肌电图(sEMG)记录和动作捕捉技术,解码手部动作数据,为手部动作识别和分析提供基准模型训练与评估 No 35. [CL]《Evolutionary Pre-Prompt Optimization for Mathematical Reasoning》 No 36. #转发赠书# 携手@异步图书 送出5本《软件设计的哲学(第2版)》 No 37. Flash Attention:基于Triton语言实现的注意力机制算法,提供高效的计算和优化,适用于大规模数据处理 No 38. HelloWorld:一个有趣的源代码音乐项目,由重金属乐队Nanowar Of Steel创作的可唱代码。这是一个特殊的Java程序,通过故意编写'糟糕'的代码来实现可歌唱性,包含了循环、条件语句和异常处理等基础功能,展示了一种独特的'True metal programming'编程理念 No 39. Instant Policy:一种快速模仿学习工具,通过图扩散技术实现即时策略生成,帮助机器人快速学习新任务 No 40. 30cc:一个用C语言编写的自举C编译器,能够编译自身代码。输出x86-64汇编代码,虽然未经优化但适合教学用途。特色是实现了三重编译:先用gcc编译得到初始编译器,再用它编译自身得到第二个版本,最后用第二版本再次编译得到最终版本,实现完全的自举过程 No 41. LangGraph Memory Service:一个帮助AI应用从用户互动中学习的长期记忆服务模板,能够根据用户偏好和历史对话个性化响应,提升用户体验 No 42. RAG Cookbooks:高级检索增强生成(RAG)技术合集,包含10种先进RAG实现方案的详细教程。从基础的Naive RAG到高级的Adaptive RAG,提供完整的代码实现和评估方法。使用LangChain、Pinecone等主流工具,适合研究人员和开发者学习和实践RAG技术 No 43. KernelBench:用于评估大语言模型(LLM)编写GPU内核能力的基准测试工具。提供4个级别的测试类别,包括单内核运算符、简单融合模式、完整模型架构和HuggingFace模型优化。可测试LLM将PyTorch算子转译为CUDA内核的能力,并评估生成代码的编译、正确性和性能 No 44. 本文提出了一种新的大型语言模型评估指标——容量密度,并发现了LLM容量密度呈指数增长的“致密化定律”,该定律表明LLM的效率正在以指数级速度提升,并对LLM的未来发展具有重要指导意义。//[LG]《Densing Law of LLMs》 No 45. fast.cu:一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOPs),求和规约性能达到3240GB/s,展示了极致的GPU计算优化 No 46. Awesome-Generation-Acceleration:超全面的生成模型加速技术资源集合,包含快速采样、模型剪枝、量化、知识蒸馏、缓存机制、部署优化等领域的前沿论文和代码实现,是生成模型优化与加速领域的重要参考资料库 No 47. Sequin:Postgres数据库变更数据捕捉工具,能够将数据变化实时流式传输到Kafka、SQS、HTTP端点等多种队列和流媒体平台,支持历史数据回填和实时变更捕捉 No 48. macOS-vz-kubelet:让macOS系统在Kubernetes上运行,实现苹果电脑作为节点部署和管理macOS虚拟机,支持混合工作负载 No 49. SmolChat-Android:一款在安卓设备上本地运行小型语言模型的应用,让用户能够与智能模型进行互动,无需联网即可享受个性化对话体验 No 50. conv_visualizer:一个神经网络卷积可视化工具,通过交互式界面让用户绘制数字或图形,实时展示神经网络中卷积层、池化层等处理过程。使用Processing和OpenGL技术实现高性能渲染,帮助理解AI内部运作机制。包含绘图和可视化两大模块,支持实时交互和完整的网络层级展示