爱可可微博热门分享(5.16)
No 1. Glider:开源的电子墨水屏项目,专注于低延迟和高刷新率,支持多种电子纸显示技术 No 2. #免费##抽奖# 携手@异步图书 送出 5 本《大模型应用开发 动手做AI Agent》 No 3. 免费课程:“构建多模态搜索和RAG系统”,旨在教授如何通过对比学习实现多模态模型训练,构建能处理文本、图像、音频和视频的多模态RAG系统,并用于行业实践 No 4. 视觉语言模型详解 No 5. 高质量的合成文本数据集资源列表 No 6. Pytvzhen:能快速将英文YouTube视频转换成中文视频的开源项目,以其高效的翻译流程和高质量的文本转换作为最主要特色 No 7. MeeseeksAI:用Mermaid图来编排人工智Agent的框架 No 8. #免费##抽奖# 携手@博文视点Broadview 送出3本《基础统计学(第14版)(双色)》 No 9. VideoPipe:跨平台的视频分析和结构化框架,使用 C++ 编写,支持多种视频处理功能 No 10. [IR] MS MARCO Web Search: a Large-scale Information-rich Web ...... No 11. Needle in a Needlestack:用于评估大型语言模型(LLM)注意力能力的更高级的基准测试工具 No 12. Model Explorer:现代化的模型图可视化和调试工具 No 13. Vibe:开源的音频转录工具,支持多种语言和平台,具有离线工作、易于使用等特点 No 14. The Graph Maker:将任意文本通过给定的本体转换成知识图谱 No 15. MuLan:旨在通过Adapter技术,使多语言扩散模型支持超过110种语言,而无需额外训练 No 16. Podman AI Lab:一个开源扩展,允许用户在本地环境中使用容器与大型语言模型(LLM)进行交互,支持AI模型下载、推理服务器启动、本地实验场以及AI应用开发 No 17. [CL] Challenges and Opportunities in Text Generation Explainability ...... No 18. [CV] Dynamic NeRF: A Review 网页链接 通过横纵向多维度分析,详细综述了动态NeRF的发展历史、方法分类、具体实现原理,并对该领域发展进行全面分析,是该领域发展的系统总结。 No 19. 微软在推动人工智能领域的领导地位的同时,面临其 2030 年碳中和目标受阻的情况,因为其温室气体排放已经增加了 30% No 20. LayoutReader:基于 LayoutLMv3 的更快的 LayoutReader 模型,用于将 OCR 识别出的文本框排序成阅读顺序 No 21. 'TKAN: Temporal Kolmogorov-Arnold Networks' GitHub: github.com/remigenet/TKAN ...... No 22. llama3.np:用纯NumPy实现的Llama 3模型 No 23. document-convert:将PDF或扫描图像转换为类似Markdown格式的高效转换管道 No 24. node-mlx:为 Node.js 设计的机器学习框架,基于 MLX,支持 GPU 加速 No 25. 'Convolutional Kolmogorov-Arnold Network (CKAN) - This project ...... No 26. 公开实时数据集列表,提供多种免费和付费的实时数据源 No 27. 早![太阳] No 28. 几篇论文实现代码 No 29. Athena Crisis:现代复古风格的回合制战术策略游戏,采用开源核心技术 No 30. 今日推介(第1407期):触觉丰富操作的视听预训练、理解在线和离线对齐算法之间的性能差距、基于稠密Blob表示的组合文本到图像生成、大规模可泛化音频语言模型、开源生成式人工智能的风险与机遇 ...... No 31. 斯坦福大学Hazy Research团队发布了一种新的嵌入式领域特定语言(DSL)ThunderKittens,旨在提高GPU上AI计算的效率,特别是针对NVIDIA H100 GPU No 32. 早![太阳] No 33. Pipecat:一个开源框架,用于构建语音和多模态对话式人工智能Agent,如个人教练、会议助手、儿童故事玩具、客户支持机器人等 No 34. 通过接触麦克风获取操作交互的音频信号,并利用大规模音频视觉预训练获得有用的触觉表示,从而在少量示教下提升机器人操作的性能。//[RO]《Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation》 No 35. [LG]《Understanding the performance gap between online and offline alignment algorithms》 No 36. [RO]《Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation》 No 37. '《动手学大模型》 No 38. [CV] CinePile: A Long Video Question Answering Dataset and Benchmark ...... No 39. ProactiveDialogues:专注于主动对话系统的论文阅读列表 No 40. 受Devin启发的AI Agent的列表,旨在为软件开发提供自动化和增强能力 No 41. 极简朋友圈:开源的极简朋友圈项目,支持多用户版本,提供丰富的社交功能和自定义选项 No 42. [CL] A Survey on RAG Meets LLMs: Towards Retrieval-Augmented ...... No 43. [CL] Evaluation of Retrieval-Augmented Generation: A Survey ...... No 44. //@爱可可-爱生活:明日开奖,欢迎参与~ No 45. catgrad:使用范畴论和静态编译技术优化深度学习训练过程的编译器 No 46. 通过一系列细致设计的实验对比发现,相比离线学习,在线强化学习对语言模型对齐任务至关重要,揭示了离线对齐算法固有的局限性。//[LG]《Understanding the performance gap between online and offline alignment algorithms》 No 47. LangChain Rust:用 Rust 语言实现的库,旨在简化基于大型语言模型(LLM)的程序编写 No 48. [CV]《Compositional Text-to-Image Generation with Dense Blob Representations》 No 49. A URDF Dataset:专门收集和分享各种来源的URDF(统一机器人描述格式)数据集 No 50. 大型语言模型(LLM)推理和服务优化相关论文列表