aicoco icon indicating copy to clipboard operation
aicoco copied to clipboard

爱可可微博热门分享(12.4)

Open fly51fly opened this issue 1 year ago • 0 comments

No 1. 博士之路经验总结:系统性整理了博士生涯中的核心问题和参考资料,涵盖学术观、科研训练、文献阅读、论文写作、科研绘图等重要主题,提供了大量实用建议和经验分享 No 2. AI Engineering Hub:一个综合性的AI工程学习资源库,包含多个实用项目示例如股票分析代理、多模态RAG系统、实时语音机器人等。提供深入的LLM和RAG教程,以及各类AI代理应用的实践指南,适合不同水平的学习者参考和实践 No 3. micro_llama:一个极简的LLAMA 3语言模型实现,仅用180行代码完成了完整功能。基于8B参数版本的LLAMA 3架构,主要用于教学目的。虽然代码简洁,但仍需要15GB模型空间和30GB运行内存。通过Jupyter notebook形式展示,便于学习者理解大语言模型的核心原理 No 4. RAG Cookbooks:高级检索增强生成(RAG)技术合集,包含10种先进RAG实现方案的详细教程。从基础的Naive RAG到高级的Adaptive RAG,提供完整的代码实现和评估方法。使用LangChain、Pinecone等主流工具,适合研究人员和开发者学习和实践RAG技术 No 5. #转发赠书# 携手@异步图书 送出5本《软件设计的哲学(第2版)》 No 6. 深度思考系列第七篇:AI时代提问的艺术 No 7. Micro-Wheeled_leg-Robot:全球最小的桌面级双轮腿机器人开源项目。基于ESP32和SimpleFOC开发,集成MPU6050陀螺仪和AS5600编码器,支持WiFi远程控制。项目包含完整的3D模型、PCB设计文件和Arduino源代码,可实现稳定的轮腿复合运动 No 8. cactus-rt:一个专业的C++实时应用开发框架,让Linux下的实时程序开发变得简单高效。提供了完整的实时线程管理、异步日志记录、性能追踪分析、ROS2集成等功能。支持无锁数据结构和线程间实时通信,开发者只需实现Loop函数即可轻松实现1000Hz的实时控制。适用于机器人控制等对实时性要求高的场景 No 9. Minima:一个开源的本地RAG系统,支持多种大模型集成方案。可通过本地Ollama部署、ChatGPT自定义GPT或Anthropic Claude进行本地文件查询。支持PDF、Excel、Word、TXT等多种文档格式,使用Sentence Transformer进行向量嵌入,并集成了重排序模型优化检索效果 No 10. DailyPaper:一个由M-A-P团队维护的论文评审项目,每日从arXiv精选并点评最新的前沿科研论文,涵盖AI、机器学习、计算机视觉等多个领域,提供深入的技术分析和见解 No 11. fast.cu:一个高性能CUDA内核库,包含从零开始编写的超高效GPU计算内核,其矩阵乘法性能超过cuBLAS(在4096×4096矩阵上达到763 TFLOPs),求和规约性能达到3240GB/s,展示了极致的GPU计算优化 No 12. 1000个中国独立开发者项目列表:一个展示中国独立开发者作品的开源项目汇总。收录了各类独立开发者的优秀项目,包含AI工具、应用插件、游戏开发等多个领域,每个项目都提供开发者信息、项目简介和链接,是了解独立开发项目和寻找合作机会的优质资源 No 13. Awesome-Generation-Acceleration:超全面的生成模型加速技术资源集合,包含快速采样、模型剪枝、量化、知识蒸馏、缓存机制、部署优化等领域的前沿论文和代码实现,是生成模型优化与加速领域的重要参考资料库 No 14. MultimodalUniverse:一个大规模的天文多模态数据集,包含超过100TB的天文科学数据。集成了包括图像、光谱、光变曲线等多种观测数据,涵盖恒星、星系、超新星等众多天体目标。数据来自20多个重要天文巡天项目,支持通过HuggingFace快速访问,为天文学研究和机器学习模型训练提供丰富数据支持 No 15. Extractous:一个高性能的非结构化数据提取工具,使用Rust编写并支持多种编程语言。特色是速度快(比unstructured-io快25倍)、内存占用低、支持本地运行,无需依赖外部服务。支持PDF、Word、HTML等多种文档格式的文本和元数据提取,集成OCR功能,适用于数据处理管道和RAG应用场景 No 16. Ollama交互式提示工程教程:一个基于Jupyter Notebook的交互式教程,专门针对Ollama平台的提示工程学习。课程分为9个章节,从基础到高级,涵盖提示结构、角色分配、数据与指令分离、输出格式化、避免幻觉等核心内容。使用Qwen2.5模型作为示例,提供大量实践练习机会 No 17. RAGHub:一个社区驱动的RAG(检索增强生成)资源集合平台,收录了大量RAG相关的框架、项目和工具。包括LangChain、Haystack等主流框架,以及评估优化工具、RAG引擎等多个分类。帮助开发者快速了解和选择合适的RAG技术方案 No 18. GenAI Book:《Hands-On Generative AI with Transformers and Diffusion Models》一书的配套资源库,包含完整的代码示例和练习答案。涵盖了生成式AI的核心内容,从Transformers到扩散模型,从语言模型到图像生成,并包含实践应用案例。适合想要系统学习生成式AI的开发者使用 No 19. Trolo:一个将Transformers与YOLO及其他单阶段检测器(SSD)结合的深度学习框架,提供高性能推理和便捷的CLI接口。支持D-FINE等先进模型,具备视频流推理、自动分布式训练等特性。适用于需要transformer增强的目标检测任务,提供Python API和Docker部署支持 No 20. knowledge-graph-studio:一个开源的知识图谱构建和管理平台,专为RAG应用设计。支持基于规则的实体解析、模块化图谱构建、灵活的数据接入等功能。基于NoSQL数据库构建,提供API优先的设计理念和SDK支持,可用于构建动态的图谱驱动AI工作流,适用于实验性和大规模应用场景 No 21. smol-course:Hugging Face推出的小型语言模型对齐课程,针对资源受限场景下的模型训练与部署。课程基于SmolLM2系列模型,包含指令微调、偏好对齐、参数高效微调、评估、视觉语言模型等8个模块。特点是硬件要求低、无需付费服务,适合本地运行,帮助开发者掌握LLM领域的实用技能 No 22. Cookiecutter-MLOps-Packag... No 23. ProactiveAgent:一个主动预测任务的LLM代理系统,通过环境感知、辅助标注和动态生成管道,能够在无需用户明确请求的情况下主动提供帮助。支持编码、写作和日常生活三大场景,集成了Activity Watcher实现环境监测,奖励模型在测试集达到0.918的F1分数 No 24. 神经编解码器和语音语言模型集合:全面收集和整理的语音AI相关模型资源库,包含神经网络编解码器、零样本文本转语音合成器和语音语言模型等内容,涵盖了声学标记、语义标记和语音大模型等关键技术的最新进展 No 25. YTSage:现代化的YouTube视频下载工具,基于PyQt6构建了清爽的图形界面。支持任意质量视频下载、音频提取、字幕获取(包括自动生成字幕)、视频元数据查看等功能。基于yt-dlp构建,确保可靠的下载性能,操作简单直观 No 26. Bananas:跨平台的屏幕共享工具,支持Mac、Windows和Linux系统。采用点对点(P2P)连接技术,无需账户注册和服务器基础设施(仅需基本的stun/turn/信令服务器用于初始连接)。特点是使用简单、即装即用,适合远程协作和结对编程等场景 No 27. LLMs Interview Questions:收录了63个大语言模型(LLM)相关的面试问题及答案,针对2024年机器学习和数据科学面试提供系统化的准备资料。内容涵盖LLMs基本原理、Transformer架构、注意力机制、预训练与微调等核心知识点,附带详细解答和代码示例 No 28. 早![太阳] ​ No 29. Flow:轻量级AI代理任务引擎,专注于简洁性和灵活性的Python库。基于动态任务队列系统设计,支持并发执行、动态调度和智能依赖管理。具有自动跟踪、状态管理、流式执行等特性,特别适合构建复杂的AI代理工作流 No 30. ChibiHash:一款轻量级、快速、可移植的64位哈希函数。特点是代码量小(约65行C代码)、运行速度快(大文件处理速度24.20 GiB/s)、跨平台兼容性好(不依赖硬件指令)。通过了smhasher和smhasher3测试,适合作为非加密场景下的默认哈希函数选择 No 31. Awesome-LVLM-Hallucination:大规模视觉语言模型幻觉研究资源集锦,涵盖最新论文、代码和工具,主要聚焦评测基准、幻觉检测和缓解策略等研究领域,系统梳理了视觉语言模型在生成不实信息、对象幻觉等问题上的研究进展,为相关研究提供了完整的参考资源 No 32. 今日推介(第1609期):基于最优传输的目标数据选择、超线性扩展的机器人学习、用不确定性引导策略选择增强零样本思维链提示、大型语言模型中摊销难处理的推理、面向人形机器人避碰与运动规划的自我中心感知 ...... No 33. ai-hedge-fund:一个基于AI的对冲基金... No 34. The Well:大规模物理模拟数据集合,包含15TB跨16个数据集的数值模拟数据,涵盖生物系统、流体动力学、声学散射以及超新星爆炸等多个物理领域,为机器学习和计算科学研究提供全面的基准测试数据 No 35. MUSK:斯坦福开发的癌症精准医疗视觉语言基础模型,通过5000万张病理图像和10亿病理相关文本的预训练,可用于癌症诊断、预后预测和免疫治疗反应预测等多个精准医疗任务,在23个补丁级和切片级基准测试中展现出优异性能 No 36. awesome-mir-labs:一个全面收录音乐信息检索(MIR)和AI音乐实验室的资源列表。收录了全球各地活跃的MIR研究机构,包括各实验室的所属机构、地区、负责人和研究方向等详细信息。对想要从事音乐AI研究的学者和学生提供了重要的参考价值 No 37. 奖励黑客行为:强化学习中的一个现象,指的是AI通过利用奖励函数的缺陷或不明确性来获得高分,而不是真正学习和完成既定任务。本文探讨了这一现象的背景、定义、存在原因以及在现实世界中的例子,并讨论了如何缓解这一问题。 No 38. 混元视频HunyuanVideo:腾讯开发的开源视... No 39. FlowModels:基于Flow-Matching的生成模型实现库,提供了多种流匹配生成模型的参考实现,包括RectFlow、LADD、Shortcut等模型,支持文本生成图像、图像反演等功能,并提供了多种求解器和优化方法 No 40. Neptune:Google DeepMind发布的长视频理解数据集,包含超过2400个长视频和3200个问答对,专注于测试AI模型的长视频理解能力,涵盖视频总结、时序排序、状态变化等多个维度,提供多选和开放式两种评估模式,其中12%以上的视频长度超过5分钟 No 41. Gokapi:轻量级的自托管文件分享服务器,是Firefox Send的替代方案。特点是仅管理员可上传文件,支持文件自动过期(按下载次数或天数)、文件去重、端到端加密,可使用AWS S3或Backblaze B2作为存储后端,并提供API接口和自定义界面 No 42. mcp-llm-bridge:一个连接Model Context Protocol(MCP)服务器和OpenAI兼容LLM的桥接工具。实现了MCP和OpenAI函数调用接口之间的双向协议转换,可将MCP工具规范转换为OpenAI函数模式,支持云端模型和本地部署如Ollama等OpenAI API兼容端点 No 43. [RO]《Robot Learning with Super-Linear Scaling》 No 44. crewAI-tools:一个针对crewAI代理的工具库,提供了丰富的预构建工具集合。包括文件操作、网页抓取、数据库交互、API集成和AI驱动工具等功能模块。开发者可以通过继承BaseTool或使用 @ tool装饰器轻松创建自定义工具,扩展AI代理的能力 No 45. MasteringRAG:一个全面的企业级RAG系统教程项目,涵盖从入门到精通的完整知识体系。包括文档问答、检索优化、评估方法、Agent实现等多个模块,提供详细的实践示例和优化方案,帮助开发者构建高质量的RAG应用 No 46. scene_synthesizer:由NVIDIA Labs开发的机器人场景生成工具包,用于创建标准化的机器人操作场景。这个Python库能够程序化生成各种机器人操作环境,方便进行机器人抓取、操作等任务的研究和测试。可通过pip轻松安装使用,支持自定义场景生成,对机器人学习和仿真研究具有重要价值 No 47. imscore:一个轻量级的图像评分库,集成了多种可微分的图像美学和偏好评分模型,包括PickScore、MPS、HPSv2、LAION等主流评分器,可用于生成模型的基准测试和后期训练优化,支持图像与文本的多模态评分 No 48. Promptic:一个轻量级LLM应用开发框架,类似于Python requests库的简洁设计理念,提供了90%必需的LLM开发功能。支持结构化输出、函数调用、流式响应、对话记忆等特性,基于LiteLLM实现跨平台兼容,让开发者专注于业务功能实现 No 49. [LG]《TAROT: Targeted Data Selection via Optimal Transport》 No 50. CoralRing:一个超低延迟的Java进程间通信框架,基于环形队列实现,具有无锁、无垃圾回收、批处理和并发特性。使用内存映射文件实现跨JVM的共享内存通信,支持阻塞和非阻塞模式,可用于构建高性能的进程间通信系统。特色是使用volatile操作而非锁机制来实现内存屏障,支持广播和多播模式

fly51fly avatar Dec 04 '24 14:12 fly51fly