aicoco

aicoco copied to clipboard

Reame
Issues

爱可可微博热门分享(12.7)

Open fly51fly opened this issue 1 year ago • 0 comments

No 1. Vision-is-all-you-need：创新的文档检索系统(V-RAG)，无需传统的文本分块，直接利用视觉语言模型处理PDF文档。使用ColPali进行图像嵌入，Qdrant作为向量数据库，配合GPT4-Vision生成响应。基于Modal实现serverless部署，包含FastAPI后端和React前端 No 2. GraphRAG Visualizer：用于可视化和探索微软GraphRAG框架生成数据的Web工具，支持2D/3D图可视化、数据表格展示、搜索功能等。可以通过上传GraphRAG索引管道生成的parquet文件，实现在本地查看和分析数据，包括文档、文本单元、社区、协变量等节点及其关系 No 3. Muggled SAM：简化版的SAM模型，让图像分割更易懂，支持自定义输入分辨率，提升性能 No 4. CRAG：META发布的综合性RAG基准测试工具，专门用于评估检索增强生成(RAG)系统的性能。包含五大领域和八个问题类别的问答数据集，提供模拟网络和知识图谱搜索的API，可以全面评估RAG系统在不同场景下的表现，支持自动化评估打分 No 5. DailyPaper：一个专业的AI论文日报项目，由M-A-P团队维护，每日精选并深度点评arXiv上的最新人工智能相关论文，内容涵盖大语言模型、计算机视觉、多模态等前沿领域，提供专业且富有洞察力的技术评述 No 6. VectorChord：一个为PostgreSQL打造的高性能向量搜索扩展，支持大规模、高效和节省磁盘空间的向量检索。其特点是查询速度比pgvector快3倍，插入吞吐量提升16倍，支持外部索引预计算，能在32GB内存的机器上处理100M个768维向量，并保持较低延迟 No 7. 小智 AI 聊天机器人：基于ESP32+SenseVoice+Qwen72B的开源AI硬件项目。支持Wi-Fi配网和4G通信，具备离线语音唤醒、5种语言识别、声纹识别、流式对话等功能。可自定义角色设定和提示词，支持对话记忆，适合AI硬件开发学习者使用。提供免开发环境固件和详细教程 No 8. llama-chunk：一个基于Llama-70B的创新文本分块策略，针对RAG应用优化。其特色是使用中文字符'段'作为特殊标记，让大模型自动进行语义分块，无需使用正则表达式或人工规则。经测试在法律文本基准上表现优于传统naive方法和语义分块方法，具有更高的检索率和信噪比 No 9. InspireMusic：一个基于PyTorch的音乐生成AI工具包，集成了音乐、歌曲和音频生成功能。使用自回归Transformer和条件流匹配建模(CFM)，支持文本提示、音乐风格、音乐结构等可控生成。目前主要支持24kHz单声道音频的文本到音乐生成，未来将扩展到歌曲和音频生成 No 10. fast-music-remover：一个轻量级的音乐和噪音移除工具，专门用于处理YouTube等网络媒体的音频。基于C++开发，使用DeepFilterNet进行音频增强，处理速度快(1分钟视频仅需5秒)，可用于课程录制、采访、现场报道等场景的背景音乐和噪音去除 No 11. knowledge-graph-studio：一个开源的知识图谱构建和管理平台，专为RAG应用设计。支持基于规则的实体解析、模块化图谱构建、灵活的数据接入等功能。基于NoSQL数据库构建，提供API优先的设计理念和SDK支持，可用于构建动态的图谱驱动AI工作流，适用于实验性和大规模应用场景 No 12. LLMs-in-Finance：一个关于金融领域大语言模型应用的知识库，涵盖生成式AI、智能代理、RAG检索增强等技术在金融领域的实践。包含了各类金融场景下的LLM应用案例、论文资料、数据集以及多模态金融分析等内容，适合研究金融科技与AI结合的开发者参考 No 13. ShellSage：一个智能化的命令行助手工具，专为系统管理员设计，可帮助解决Shell脚本相关问题。支持Bash命令和脚本、系统管理任务、Git操作、文件管理、进程处理等功能。可在tmux会话中运行，支持管道输入和特定面板上下文选择，极大提升了命令行工作效率 No 14. Deep-ML开放问题库：一个开源的问题库，专注于线性代数、机器学习和深度学习，提供从零开始解决问题的丰富学习体验，助力网站Deep-ML No 15. aisearch-openai-rag-audio：基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答，集成了Azure OpenAI的GPT-4实时语音API，可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景 No 16. [CL]《Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement》 No 17. RAGHub：一个社区驱动的RAG(检索增强生成)资源集合平台，收录了大量RAG相关的框架、项目和工具。包括LangChain、Haystack等主流框架，以及评估优化工具、RAG引擎等多个分类。帮助开发者快速了解和选择合适的RAG技术方案 No 18. awesome-machine-learning-startups：一个全球AI和机器学习创业公司的精选列表，按城市和领域分类整理。涵盖计算机视觉、自然语言处理、机器人、医疗、自动驾驶等多个AI应用领域，包含公司基本信息、LinkedIn链接、融资状态等详细数据 No 19. AkiraDocs：智能文档平台，能够自动编写、翻译和优化文档，让团队专注于创意而非文档管理的复杂性 No 20. 早！[太阳] No 21. ComfyUI桌面应用：一个让用户便捷使用ComfyUI的桌面软件，集成了多个工具和服务，自动更新并支持多种平台 No 22. DeepIsles 缺血性脑卒中分割工具：一款用于MRI扫描处理的软件工具，专门针对缺血性脑卒中病灶分割，与ISLES'22 MICCAI挑战赛的领先团队合作开发，提供快速准确的病灶识别 No 23. [LG]《Densing Law of LLMs》 No 24. 机器人安全导航控制：为单个或多机器人导航提供安全关键控制器，包括CBF-QP、MPC-CBF等，支持不同机器人动力学模型，模拟RGB-D相机传感器的感知和绘图，以及单多智能体导航 No 25. Banan-OS 香蕉操作系统：一个用C++编写的爱好操作系统，支持x86_64和i686架构，拥有多处理器支持、网络堆栈和基本图形环境等特性 No 26. 几篇论文实现代码 No 27. 今日推介(第1612期)：最小标注对齐、面向数学推理的进化预提示优化、以数据为中心的由弱到强泛化、大语言模型的容量密度增长律、通过大规模多语言训练实现跨语言增强弥合语言差距 ...... No 28. Luna AI换脸：一款企业级AI换脸解决方案，集成AI写真、证件照、数字分身等多功能。支持脸型/表情/光影自动适配，内置10万+艺术写真模板，可进行多人合影换脸。采用分布式集群架构，支持商用级应用部署，包含完整的付费和营销体系 No 29. RoboMatrix：一个以技能为中心的机器人任务规划和执行框架，专为开放世界中的可扩展性设计，能够实现复杂的机器人操作和任务执行 No 30. AI前沿：用最少数据打造强大智能 No 31. Promptic：一个轻量级LLM应用开发框架，类似于Python requests库的简洁设计理念，提供了90%必需的LLM开发功能。支持结构化输出、函数调用、流式响应、对话记忆等特性，基于LiteLLM实现跨平台兼容，让开发者专注于业务功能实现 No 32. [CL]《ALMA: Alignment with Minimal Annotation》 No 33. Amurex：全球首款AI会议助手，帮你不错过会议细节，自动生成总结和行动项，提升会议效率 No 34. 手部动作解码器：通过肌电图（sEMG）记录和动作捕捉技术，解码手部动作数据，为手部动作识别和分析提供基准模型训练与评估 No 35. [CL]《Evolutionary Pre-Prompt Optimization for Mathematical Reasoning》 No 36. #转发赠书# 携手@异步图书送出5本《软件设计的哲学（第2版）》 No 37. Flash Attention：基于Triton语言实现的注意力机制算法，提供高效的计算和优化，适用于大规模数据处理 No 38. HelloWorld：一个有趣的源代码音乐项目，由重金属乐队Nanowar Of Steel创作的可唱代码。这是一个特殊的Java程序，通过故意编写'糟糕'的代码来实现可歌唱性，包含了循环、条件语句和异常处理等基础功能，展示了一种独特的'True metal programming'编程理念 No 39. Instant Policy：一种快速模仿学习工具，通过图扩散技术实现即时策略生成，帮助机器人快速学习新任务 No 40. 30cc：一个用C语言编写的自举C编译器，能够编译自身代码。输出x86-64汇编代码，虽然未经优化但适合教学用途。特色是实现了三重编译：先用gcc编译得到初始编译器，再用它编译自身得到第二个版本，最后用第二版本再次编译得到最终版本，实现完全的自举过程 No 41. LangGraph Memory Service：一个帮助AI应用从用户互动中学习的长期记忆服务模板，能够根据用户偏好和历史对话个性化响应，提升用户体验 No 42. RAG Cookbooks：高级检索增强生成(RAG)技术合集，包含10种先进RAG实现方案的详细教程。从基础的Naive RAG到高级的Adaptive RAG，提供完整的代码实现和评估方法。使用LangChain、Pinecone等主流工具，适合研究人员和开发者学习和实践RAG技术 No 43. KernelBench：用于评估大语言模型(LLM)编写GPU内核能力的基准测试工具。提供4个级别的测试类别，包括单内核运算符、简单融合模式、完整模型架构和HuggingFace模型优化。可测试LLM将PyTorch算子转译为CUDA内核的能力，并评估生成代码的编译、正确性和性能 No 44. 本文提出了一种新的大型语言模型评估指标——容量密度，并发现了LLM容量密度呈指数增长的“致密化定律”，该定律表明LLM的效率正在以指数级速度提升，并对LLM的未来发展具有重要指导意义。//[LG]《Densing Law of LLMs》 No 45. fast.cu：一个高性能CUDA内核库，包含从零开始编写的超高效GPU计算内核，其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOPs)，求和规约性能达到3240GB/s，展示了极致的GPU计算优化 No 46. Awesome-Generation-Acceleration：超全面的生成模型加速技术资源集合，包含快速采样、模型剪枝、量化、知识蒸馏、缓存机制、部署优化等领域的前沿论文和代码实现，是生成模型优化与加速领域的重要参考资料库 No 47. Sequin：Postgres数据库变更数据捕捉工具，能够将数据变化实时流式传输到Kafka、SQS、HTTP端点等多种队列和流媒体平台，支持历史数据回填和实时变更捕捉 No 48. macOS-vz-kubelet：让macOS系统在Kubernetes上运行，实现苹果电脑作为节点部署和管理macOS虚拟机，支持混合工作负载 No 49. SmolChat-Android：一款在安卓设备上本地运行小型语言模型的应用，让用户能够与智能模型进行互动，无需联网即可享受个性化对话体验 No 50. conv_visualizer：一个神经网络卷积可视化工具，通过交互式界面让用户绘制数字或图形，实时展示神经网络中卷积层、池化层等处理过程。使用Processing和OpenGL技术实现高性能渲染，帮助理解AI内部运作机制。包含绘图和可视化两大模块，支持实时交互和完整的网络层级展示

Dec 07 '24 13:12 fly51fly