爱可可微博热门分享(11.21)
No 1. Foundations of LLMs:浙江大学开源的大语言模型教材,系统介绍大模型相关基础知识和前沿技术。涵盖传统语言模型、大语言模型架构演化、Prompt工程、参数高效微调、模型编辑、检索增强生成等六大主题,每章配有相关论文列表,定期更新以跟踪最新技术进展 No 2. TEN Framework:下一代AI Agent框架,号称全球首个真正实时的多模态AI Agent框架。支持高性能实时多模态交互,跨语言(C++/Go/Python)和跨平台开发,提供边缘云集成能力。框架特色包括实时代理状态管理、可视化编程、音视频工具集成等,适用于同声传译、语音转文本、多语言聊天室等场景 No 3. DRL-Pytorch:最全面的深度强化学习算法PyTorch实现合集,整合了13种主流强化学习算法。包括从入门级的Q-learning到高阶的SAC、TD3等,每个算法都配有详细文档、完整训练曲线和论文引用。项目还提供了丰富的学习资源推荐,包括环境配置、经典书籍、在线课程和重要论文等 No 4. 中国独立开发者项目列表:一个展示中国独立开发者作品的精选合集,收录了1000多个优秀项目,涵盖AI工具、效率软件、浏览器插件、游戏开发等多个领域。项目按类别整理,每个项目都包含开发者、项目名称、链接和简介等详细信息 No 5. #转发赠书# 携手@异步图书 送出5本《AI群星闪耀时》 No 6. MCTS:一个用Python实现的蒙特卡洛树搜索(Monte Carlo Tree Search)算法库,包含了基础的MCTS实现和一些实验性游戏示例。该项目提供了一个简单的数值累加游戏作为测试用例,可用于学习和理解MCTS算法的工作原理 No 7. #转发赠书# 携手@博文视点Broadview 送出3本《基于大模型的RAG应用开发与优化——构建企业级LLM应用》 No 8. 写了篇深度长文《AI Coding的范式革命:从工具演进到认知重构》 No 9. graphrag-dify:一个将GraphRAG技术与Dify平台结合使用的实践项目,通过HTTP服务方式将GraphRAG的知识图谱检索能力暴露给Dify使用。项目提供了完整的配置流程和DSL示例,特别针对游戏《王者荣耀》的知识库进行了实践演示,实现了基于知识图谱的智能问答系统 No 10. 机器学习创业公司大全:一个精选的AI和机器学习创业公司列表,按照地理位置(柏林、伦敦、马德里、米兰、巴黎等)和技术领域(NLP、计算机视觉、机器人等)分类整理,包含公司基本信息、员工规模、融资轮次等详细数据 No 11. bRAG-langchain:构建自己的RAG应用,探索从基础到高级的检索增强生成技术,包括多查询和定制RAG构建 No 12. AutoSeg-SAM2:基于SAM1和SAM2的自动视频分割工具,结合SAM1的静态分割和SAM2的追踪能力,可对视频进行全自动分割,实现对象追踪和新目标检测。支持Python 3.10+和PyTorch 2.3.1+环境,提供完整的演示数据集和部署文档 No 13. 电子印章工具:Draw Stamp Utils,一个用JavaScript编写的电子印章制作工具,能轻松创建和定制电子印章 No 14. AFusion:AlphaFold 3的图形用户界面工具包,提供直观的GUI界面简化AlphaFold 3的安装和预测过程。主要功能包括引导式安装、实体管理、JSON配置生成、Docker集成执行、控制台输出以及批量预测API。支持蛋白质、RNA、DNA和配体的多实体预测,适合不熟悉命令行操作的用户 No 15. 白霜词库:一款精心打造的Rime输入法词库,基于7.45亿字高质量语料重新统计词频,特色是去除不健康和冷僻词汇,优化字词频率准确度,支持全拼/双拼等多种输入方案。无需使用智能模型即可达到出色的输入效果,支持Windows/Mac/Linux/iOS/Android全平台,可通过Git、东风破等多种方式安装使用 No 16. texture-diffusion:一个强大的Blender插件,利用扩散模型实现自动化纹理生成。它允许用户在Blender内直接为3D模型生成纹理,支持局部重绘(inpainting)、LoRA模型和IP-Adapter,可通过深度ControlNet确保生成的纹理符合3D几何特征,支持多纹理着色和UV投影等高级功能 No 17. Focalboard:开源的项目管理工具,作为Trello、Notion和Asana的自托管替代方案。提供个人桌面版和多用户服务器版两个版本,支持多语言,可用于定义、组织、追踪和管理个人及团队工作。具备看板、任务管理等核心功能,支持Windows、Mac和Linux平台,可通过Docker快速部署 No 18. 优秀Qwen提示语大全:集合了各种高质量Qwen模型提示语的资源库,帮助用户更好地与Qwen对话和生成文本内容 No 19. Automated-AI-Web-Researcher-Ollama:基于Ollama的自动化研究助手,能够自主执行网络研究任务。输入一个查询后,它会自动确定研究重点、执行网页搜索和内容抓取、保存发现的内容。特色功能包括优先级研究规划、系统化网络搜索、结果自动保存、研究总结生成以及基于研究结果的问答功能 No 20. Memoripy:一款AI记忆层工具,具备短期和长期存储、语义聚类和记忆衰减功能,专为需要记忆管理的AI应用设计 No 21. MolE:一个面向化学的基础模型,结合几何深度学习和Transformer架构,用于学习分子的有意义表示。该模型通过两步预训练过程:首先使用约8.42亿分子的图表示进行自监督学习,然后进行大规模多任务训练来整合生物信息。可用于分子性质预测、分子嵌入计算和相似性搜索等任务 No 22. EgoMimic:基于第一人称视角的模仿学习框架,用于机器人技能学习。支持处理人类Aria眼镜采集的数据和机器人远程操作数据,提供了完整的数据处理、训练和部署流程。包含多个示例任务如日用品拿取、衣物折叠等,并提供了预训练数据集和详细的实验配置 No 23. Extractous:高性能非结构化数据提取工具,使用Rust开发并提供多语言绑定,支持PDF、Word、HTML等多种文档格式的内容和元数据提取。相比同类工具unstructured-io速度快25倍,内存占用低11倍。集成Apache Tika和Tesseract OCR,提供原生执行性能,无需外部服务和API No 24. 几篇论文实现代码 No 25. 今日推介(第1596期):无启发式多教师学习、基于图扩散的上下文模仿学习、用负特征值提高线性RNN的状态跟踪性能、基于事后回归的少标签自动评价、8个小时的人与机器人表现力对比表演 ...... No 26. nano-sparse-attention:一个教育性的稀疏注意力机制实现库,专注于LLM推理的优化。提供纯PyTorch实现的多种稀疏注意力模式,包括Local Window、Attention Sinks、SnapKV等,支持预填充和生成两个阶段。通过详细的Jupyter notebook教程和可视化工具,帮助用户理解和实验不同的注意力模式 No 27. FlowModels:基于Flow-Matching的生成模型实现集合,包含多种流匹配方法的测试和部署,如Rectflow、LADD、Shortcut Model等。支持text2img生成、图像反演等任务,并实现了多种求解器(Midpoint、Euler、RK4)和加速技术(N-th Reflow、Rectified Flow Distillation) No 28. 早![太阳] No 29. gradio-webrtc:基于WebRTC的Gradio流媒体组件,支持实时音视频传输。提供了四种主要功能:网页摄像头视频流传输、服务器到客户端的视频流传输、服务器到客户端的音频流传输以及双向音频对话。特别适合构建需要实时音视频处理的AI应用,如实时物体检测、对话AI等 No 30. Documind:一个开源平台,利用人工智能从文档中提取结构化数据,擅长将PDF转换为图像进行详细处理,并根据用户定义的模式提取信息 No 31. Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成,可用于全面评估指令微调模型的性能 No 32. Abbey:高度可定制的私有化AI接口工具,集成了笔记本、基础聊天、文档管理和Youtube视频处理等功能,可灵活配置不同的LLM模型、TTS模型、OCR模型和搜索引擎,支持多用户认证和私有化部署 No 33. Pose Depot:一个为ControlNet设计的高质量姿势图像集合,提供多角度的深度图、Canny边缘图、法线图和OpenPose骨架图。该项目旨在为Stable Diffusion等文生图模型提供更精确的姿势控制,包含网页浏览界面方便用户筛选和预览 No 34. OliveTin:一个安全便捷的Web命令执行工具,通过Web界面来安全地执行预定义的Shell命令。它提供响应式触控友好的界面,支持暗黑模式,通过YAML配置文件定义命令,可让非技术人员安全执行特定命令,适用于家庭自动化、服务器管理等场景。特色包括轻量级设计、容器化部署支持和完善的REST/gRPC API No 35. AI前沿:从多教师学习到机器人艺术 No 36. Stripe Agent Toolkit:一个面向AI Agent的Stripe API集成工具库,支持Python和TypeScript,可与LangChain、CrewAI和Vercel AI SDK等主流AI Agent框架无缝对接。通过函数调用方式实现Stripe支付API的智能化集成,并支持计量计费功能 No 37. GenAI-Showcase:MongoDB官方生成式AI应用案例集合,包含RAG管道、AI智能体和行业特定用例的完整实现。提供与LlamaIndex、Haystack和LangChain等框架集成的实践教程,涵盖客服聊天机器人、HR助手、推荐系统等多个场景,展示MongoDB作为向量数据库、运营数据库和记忆提供者的应用 No 38. 晚安~ [月亮] No 39. markdown-to-poster:一个将Markdown转换为精美海报图片的React组件库,支持多种社交媒体格式。具有9种预设主题、自定义模板、一键复制图片、CORS图片代理等功能,可用于生成Twitter/Instagram/Facebook等平台的分享图片。内置在线编辑器,支持一键部署 No 40. Leopards:Python列表查询工具,让你像使用数据库一样查询字典或对象列表。支持AND/OR/NOT逻辑运算、多种过滤条件(eq/gt/lt/contains等)和数据聚合操作(Count/Max/Min/Sum/Avg)。相比Pandas导入快140倍,查询快18倍,且包体积小4000倍 No 41. Teacher2Task 提出了一种创新的无启发式多教师学习框架,通过引入教师特定输入标记和多任务学习,有效整合多个教师的知识,显著提升了模型性能并解决了现有方法中标签效率低和噪声标签传播等问题,为深度学习模型的训练提供了新的思路。//[LG]《Heuristic-Free Multi-Teacher Learning》 No 42. [RO]《Instant Policy: In-Context Imitation Learning via Graph Diffusion》 No 43. AivisSpeech:基于VOICEVOX开发的AI语音合成软件,支持Windows和macOS系统,可轻松生成富有情感的日语语音。支持AIVMX格式的语音模型,采用ONNX Runtime实现高速CPU推理,通过简单的UI界面即可添加和管理语音模型 No 44. AGI记忆系统:一个高级的数据库设计,用于人工通用智能(AGI)的记忆管理系统,该系统模仿了人类认知架构,实现了多种类型的记忆存储和检索机制 No 45. 本文证明了线性循环神经网络 (LRNN) 在状态跟踪方面的局限性源于其状态转移矩阵特征值范围的限制,并提出通过扩展特征值范围到 [-1, 1] 来显著提升其表达能力和状态跟踪性能,并在理论和实验上进行了验证。//[LG]《Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues》 No 46. LogitsProcessors Zoo:NVIDIA开发的LLM输出控制工具集,提供一系列处理器来自定义和增强大语言模型的行为。包含多个实用工具如生成长度控制器、引用提示处理器、强制结束语处理器和多项选择处理器等,支持transformers、vLLM和TensorRT-LLM等主流框架,可以更精确地控制LLM的输出行为 No 47. TUnit:一个现代化、快速、灵活的.NET测试框架,支持多种测试类型包括单元测试、集成测试和验收测试。基于Microsoft.Testing.Platform构建,利用源代码生成器定位和注册测试用例,支持Native AOT和Trimmed Single File应用,提供丰富的生命周期钩子和事件系统 No 48. ALIGN Eval:一个让构建和优化LLM评估器变得简单有趣的原型应用。提供游戏化的界面帮助用户构建LLM评估器,包含了对标注数据的评估工具、半自动优化功能,以及一个迭代工作流来对齐标注者与AI输出。基于Next.js和TypeScript构建,适用于任何二分类提示词的优化 No 49. [LG]《Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues》 No 50. [RO]《Breathless: An 8-hour Performance Contrasting Human and Robot Expressiveness》