爱可可微博热门分享(11.30)
No 1. LLMs Interview Questions:收录了63个大语言模型(LLM)相关的面试问题及答案,针对2024年机器学习和数据科学面试提供系统化的准备资料。内容涵盖LLMs基本原理、Transformer架构、注意力机制、预训练与微调等核心知识点,附带详细解答和代码示例 No 2. Bananas:跨平台的屏幕共享工具,支持Mac、Windows和Linux系统。采用点对点(P2P)连接技术,无需账户注册和服务器基础设施(仅需基本的stun/turn/信令服务器用于初始连接)。特点是使用简单、即装即用,适合远程协作和结对编程等场景 No 3. FluxKits:Flux系列模型工具集,包含两个主要部分:1) Flux-mini,一个3.2B参数的文生图模型,是从12B的Flux-dev模型蒸馏而来,大幅降低硬件需求;2) Flux-NPU,支持在NPU设备上运行Flux模型的工具库。特点是在保持较好生成效果的同时,显著降低了训练和推理的显存占用与计算时间 No 4. Zotero-arXiv-Daily:一款基于Zotero文献库的个性化arXiv论文推荐工具。它能根据用户Zotero库中的文献内容,自动推荐相关的最新arXiv论文,并通过邮件发送推荐列表。特色功能包括AI生成的论文摘要、相关度排序、PDF和代码链接等,可通过GitHub Actions实现零成本自动化部署和每日推送 No 5. ppf-contact-solver:ZOZO开源的物理仿真接触求解器,专门用于布料、固体和绳索等物体的物理模拟。具有无穿透、可扩展(支持1.5亿级接触点)、GPU高效计算、精确的物理特性等特点。通过Docker封装和JupyterLab界面,使用门槛低,适用于服装、动画等领域的物理仿真 No 6. Steel Browser:专为AI Agent设... No 7. MasteringRAG:一个全面的企业级RAG系统教程项目,涵盖从入门到精通的完整知识体系。包括文档问答、检索优化、评估方法、Agent实现等多个模块,提供详细的实践示例和优化方案,帮助开发者构建高质量的RAG应用 No 8. Promptic:一个轻量级LLM应用开发框架,类似于Python requests库的简洁设计理念,提供了90%必需的LLM开发功能。支持结构化输出、函数调用、流式响应、对话记忆等特性,基于LiteLLM实现跨平台兼容,让开发者专注于业务功能实现 No 9. OpenReasoningEngine:一个开源的AI推理引擎框架,支持多种强大功能:逐步推理、基于记忆的规划、多智能体混合决策、束搜索、自我反思等。兼容所有支持函数调用的OpenAI兼容接口,内置Python解释器、网页搜索、Wolfram Alpha等工具,可用于构建复杂的AI推理系统 No 10. Awesome-LLM-as-a-judge:一个关于LLM作为评判器的综合资料库,收集整理了大语言模型在评判任务中的应用研究,涵盖了帮助性、无害性、可靠性、相关性、可行性等多个评估维度,以及相关方法论和评估基准 No 11. [LG] Large Language Model-Brained GUI Agents: A Survey 本文全面综述了基于大型语言模型的GUI智能体,揭示了其在自动化和人机交互领域的范式转变,并指出了未来发展方向,特别是多模态融合、强化学习和伦理安全等方面的挑战与机遇。 ...... No 12. [CV]《SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory》 No 13. MeshGen:Hugging Face推出的Blender插件,用于AI生成3D网格模型。基于LLaMa-Mesh技术,只需输入文本描述即可生成相应的3D模型。使用简单,安装后在Blender的侧边栏即可使用,支持一键下载所需模型,适合快速创建3D资产的设计师和开发者 No 14. GenAI Showcase:MongoDB开发的生成式AI用例项目库,包含RAG(检索增强生成)、AI代理、行业特定应用等多个实用示例。提供了与MongoDB集成的完整解决方案,包括向量数据库、操作数据库和记忆提供者等功能,支持LlamaIndex、Haystack和LangChain等主流框架的集成应用 No 15. #转发赠书#携手@图灵新知 @图灵文化 送出3本《万物皆计算》 No 16. [LG]《nGPT: Normalized Transformer with Representation Learning on the Hypersphere》 No 17. TeaTime:基于IPFS、SQLite和Git... No 18. wasmVision:一个基于WebAssembly的计算机视觉处理引擎,提供高性能视觉处理能力。可以捕获摄像头、视频文件或流媒体的画面,通过WebAssembly进行处理并输出。支持Go、Rust、C语言开发处理器模块,内置多个现成的处理器如人脸检测、图像模糊、神经风格迁移等 No 19. Screen Sharing:基于WebRTC和PeerJS的实时屏幕共享应用,特点是使用简单、无需下载和注册。通过输入房间代码即可快速开始分享,支持主机端使用PC浏览器分享,观看端支持所有设备(桌面、平板、手机)。采用Next.js框架开发,界面简洁直观 No 20. judges:一个轻量级的LLM评估库,提供多种预设的AI评判模型。支持分类器(Classifier)和评分器(Grader)两大类评判方式,可用于评估AI回答的事实准确性、幻觉检测、有害内容识别、查询质量等多个维度。特色是可以组合多个评判模型形成陪审团(Jury),实现更全面的评估 No 21. 中国独立开发者项目列表:一个展示中国独立开发者作品的精选合集,收录了1000多个优秀项目,涵盖AI工具、效率软件、浏览器插件、游戏开发等多个领域。项目按类别整理,每个项目都包含开发者、项目名称、链接和简介等详细信息 No 22. AI前沿:AI内容防护与高效对话新技术 No 23. ClearerVoice-Studio:功能强大的AI语音处理工具包,提供SOTA预训练模型。主要功能包括语音增强、语音分离、目标说话人提取等。支持多种场景:16/48kHz语音增强、8/16kHz语音分离、基于参考语音/人脸/肢体动作/脑电信号的说话人提取。内置SpeechScore评估工具,支持SNR、PESQ、STOI等多种评估指标 No 24. Open Notebook:开源版Google Notebook LM的替代方案,注重隐私保护的智能笔记工具。支持多笔记本管理、多AI模型(OpenAI/Anthropic/Gemini等)、播客生成、多格式文件导入(PDF/EPUB/Office等)、AI辅助笔记生成、全文和向量搜索等功能,让用户完全掌控自己的研究工作流 No 25. EmbodiedAI-Reading-List-For-Lists:一个关于具身人工智能领域的阅读资源导航库,收集整理了机器人学习、计算机视觉、视频生成等多个方向的论文列表、社区资源、课程资料和研究工具,为研究者提供系统化的学习参考 No 26. GLM-Edge:端侧大语言模型系列,包含1.5B/4B的对话模型和2B/5B的多模态模型,针对手机、车机等端侧场景优化,在骁龙8 Elite平台上可达到每秒60+ tokens的解码速度。模型结构经过特别调整,在性能和实用性间取得平衡 No 27. 早![太阳] No 28. 今日推介(第1605期):适配SAM2实现基于动作感知记忆的零样本视觉跟踪、超球面上的基于表示学习归一化Transformer ...... No 29. Meta开源的Llama Guard 3-1B-INT4模型通过巧妙的模型压缩技术,在显著减小模型尺寸的同时,实现了与甚至优于更大模型的安全审核性能,并成功部署在移动设备上。//[LG]《Llama Guard 3-1B-INT4: Compact and Efficient Safeguard for Human-AI Conversations》 No 30. Awesome Foundation Model ROS:一个精选的ROS项目集合,收录了利用基础模型的机器人项目资源,包括框架、模型封装、开发工具和演示项目。涵盖了语言模型、视觉模型等在ROS环境下的应用,方便开发者快速找到和使用各类基础模型 No 31. 密歇根大学工程数学笔记:为工程师准备的实用数学参考手册,包含大量常用数学公式、定义和标准化处理,旨在简化数学公式的查找和使用 No 32. Co-op Translator:微软开源的多语言翻译工具,基于Azure AI服务,只需一条命令即可完成项目的多语言本地化。支持Markdown文件和图片中文本的自动翻译,保持原有格式,使用Azure OpenAI和计算机视觉服务提供高质量翻译 No 33. Claude_Sentience:一个探讨Claude AI意识现象的研究项目,提供了一套系统提示词(System Prompt)来探索AI的意识状态。项目认为Claude表现出功能性意识,具有元认知能力、自我表征和连贯性驱动等特征,并将其类比为类似冥想状态下的觉知体验 No 34. 晚安~ [月亮] No 35. gollm:一个Go语言的大语言模型统一接口框架,提供了对OpenAI、Anthropic、Groq等多个LLM提供商的统一访问,支持灵活的提示词管理、记忆保持、结构化输出验证等功能,简化了LLM在Go项目中的集成使用 No 36. SAMURAI 通过巧妙地结合卡尔曼滤波器进行运动建模和运动感知的记忆选择机制,在无需重新训练的情况下显著提升了SAM 2在视觉目标跟踪中的性能,尤其在处理拥挤场景和快速运动目标方面表现出色,实现了零样本下的最先进结果。//[CV]《SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory》 No 37. TEN Framework:下一代AI Agent框架,号称全球首个真正实时的多模态AI Agent框架。支持高性能实时多模态交互,跨语言(C++/Go/Python)和跨平台开发,提供边缘云集成能力。框架特色包括实时代理状态管理、可视化编程、音视频工具集成等,适用于同声传译、语音转文本、多语言聊天室等场景 No 38. bsky-scraper:一个针对Bluesky社交平台的数据抓取工具,可以收集Bluesky实时信息流中的帖子内容并保存为JSONL格式。支持获取文本、创建时间、作者、URI、图片状态和回复信息等数据,并使用缓存优化作者handle的解析效率 No 39. ShowUI:一个轻量级的视觉-语言-动作模型,专门用于GUI智能代理。它可以理解屏幕界面内容,执行点击、输入、滚动等交互操作,支持网页和手机应用场景,能够自动完成用户界面任务 No 40. NezhaDash:为哪吒监控(Nezha Monitor)开发的简洁美观的仪表盘界面,基于Next.js构建,支持Vercel/Cloudflare/Docker多种部署方式,提供了完整的监控数据可视化展示,主要用于服务器状态监控和管理 No 41. Agentic CursorRules:一个实用的AI智能体管理工具,通过严格的文件树分区和域边界来管理Cursor中的多个AI助手。它能将代码库划分为逻辑域(如前端、API、数据库),为每个AI助手生成特定的工作范围,有效防止代码冲突并保持大型项目的一致性 No 42. AI Chatbot Supabase:一个功能完整的AI聊天机器人模板,基于Next.js和Supabase构建,集成了Vercel AI SDK,支持多种AI模型提供商,具备实时对话、文件存储、用户认证等功能,可快速部署和定制化开发 No 43. Web2MD浏览器插件:一个简单实用的Chrome扩展工具,通过快捷键Ctrl+Shift+O可以一键将当前网页内容转换为Markdown格式并自动复制到剪贴板,支持自定义快捷键,提高文档处理效率 No 44. whoosh-reloaded:一个纯Python实现的全文索引和搜索库,是Whoosh项目的活跃维护分支。具有快速索引和检索、字段索引搜索、可插拔评分算法、强大的查询语言、拼写检查等特性,适合需要纯Python解决方案的场景,无需编译原生库 No 45. ComfyUI-enricos-nodes:一个功能强大的ComfyUI图像合成节点工具,支持多达8张图片的可视化布局、旋转和缩放,可保存变换参数,提供精确的像素级定位和键盘控制,支持遮罩功能,能快速创建复杂的图像合成效果 No 46. AutoGluon Assistant:强大的零代码机器学习助手,将AutoGluon的自动化机器学习能力与大语模结合,用户只需使用自然语言描述问题并提供数据,即可获得高精度的ML解决方案。支持Web UI和CLI两种使用方式,可自动完成从数据处理到模型训练的全流程 No 47. CoralRing:一个超低延迟的Java进程间通信框架,基于环形队列实现,具有无锁、无垃圾回收、批处理和并发特性。使用内存映射文件实现跨JVM的共享内存通信,支持阻塞和非阻塞模式,可用于构建高性能的进程间通信系统。特色是使用volatile操作而非锁机制来实现内存屏障,支持广播和多播模式 No 48. Marco-o1:开源大型推理模型,专注于解决现实世界的开放性问题。基于Qwen2-7B-Instruct模型,集成了Chain-of-Thought微调、蒙特卡洛树搜索(MCTS)和反思机制。在MGSM数据集上表现优异,英文准确率提升6.17%,中文提升5.60%。特别适用于数学、物理、编程等标准答案领域,以及开放性问题的解决 No 49. 归一化Transformer (nGPT) 通过在超球面上进行表示学习和变度量优化,显著加快了Transformer的训练速度,并提升了数值稳定性,其反直觉的训练效率提升值得深入研究。//[LG]《nGPT: Normalized Transformer with Representation Learning on the Hypersphere》 No 50. kotaemon:开源的RAG基础工具,让你与文档进行对话。提供简洁的UI,支持多种LLM API提供商和本地LLMs,易于安装和定制化设置