爱可可-爱生活
爱可可-爱生活
No 1. 本地运行DeepSeek R1的全面入门指南 No 2. [547星]smolGPT:从零开始训练自己的迷你大语言模型,轻松搞定小规模文本生成任务。亮点:1. 纯PyTorch实现,代码简洁无冗余;2. 高效训练,支持混合精度和梯度累积;3. 预训练模型仅需18.5小时,快速上手 No 3. Deepseek R1可能找到了超越人类的办法 No 4. 通俗解读 DeepSeek-R1 训练过程 No 5. DeepSeek如何实现10倍效率提升? No 6. 1000行代码操作系统实战 No 7. DeepSeek-R1 vs OpenAI...
No 1. 本地运行DeepSeek R1的全面入门指南 No 2. DeepSeek R1全面入门指南 No 3. [6.1k星]Roboflow Notebooks:一站式的计算机视觉教程宝库,从基础架构到前沿模型,轻松入门!亮点:1. 涵盖47个前沿模型教程,如YOLO11、SAM 2等;2. 提供20种计算机视觉技能实战,如车辆速度估计、自动化标注;3. 每周更新视频教程,紧跟技术前沿 No 4. DeepSeek如何实现10倍效率提升? No 5. 你用Ollama跑起来的不是真正的DeepSeek R1 No 6. [325星]RAGEN:首个开源复现DeepSeek-R1的强化学习训练框架,助力智能体模型训练。亮点:1. 首次开源复现,填补行业空白;2. 支持多轮统一处理,避免批量大小不稳定;3. 提供世界建模能力,助力智能体规划 No...
No 1. DeepSeek R1 训练过程概览 No 2. 《矩阵微积分》讲义,旨在向熟悉基础微积分和线性代数的本科生介绍矩阵微积分的课程,该课程专注于向量空间上的函数微积分,特别是在机器学习和其他领域中的应用,包括矩阵逆和分解、常微分方程求解器的导数以及随机函数的导数等 No 3. 致力于为思维模型提供完全开源的数据整理项目,首要目标是整理一个推理数据集,用于训练超越 DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Qwen-7B 在数学和编程推理基准上的小型推理模型 No 4. DeepSeek-R1图解:深度解析DeepSee... No 5. [325星]RAGEN:首个开源复现DeepSeek-R1的强化学习训练框架,助力智能体模型训练。亮点:1. 首次开源复现,填补行业空白;2. 支持多轮统一处理,避免批量大小不稳定;3. 提供世界建模能力,助力智能体规划 No 6. 早![太阳] No 7....
No 1. deepseek R1 使用的 GRPO 的可视化简要解释 No 2. DeepSeek-R1图解:深度解析DeepSee... No 3. [112星]mini_qwen:从零开始打造你的专属大语言模型!只需12G显存,就能在T4显卡上开启训练之旅。亮点:1. 1B参数,支持中英文,满足多样化需求;2. 预训练、微调、直接偏好优化三步走,训练流程清晰;3. 详细教程与代码,新手也能轻松上手 No 4. DeepSeek R1 的 1.58-bit 动态量化,将模型尺寸大幅压缩 80% 的同时,保持了良好的性能 No 5. 真是过年了!Deepseek最新开源Janus-Pro,统一的理解和生成多模态大模型,在图像生成、图像描述、地标识别、视觉常识、OCR等任务上表现出色 No...
No 1. UC Berkeley为数学新手量身打造的数学思维入门课程。亮点:1. 专为无离散数学经验的学生设计;2. 课程内容覆盖从基础集合论到高级组合数学;3. 提供丰富的学习资源,包括视频、笔记和练习题 No 2. Deepseek-v3 101:Deepseek-v3架构解读 No 3. deepseek R1 使用的 GRPO 的可视化简要解释 No 4. DeepSeek-R1的几点启发: 1. 简约方案往往比复杂系统更具生命力 2. 奖励机制设计是AI进化的关键驱动 ...... No 5. [112星]mini_qwen:从零开始打造你的专属大语言模型!只需12G显存,就能在T4显卡上开启训练之旅。亮点:1....
No 1. Deepseek R1 原理解析:介绍了 Deepseek R1 模型的工作原理及其训练过程,包括思维链推理(Chain of Thought Reasoning)、强化学习(Reinforcement Learning)、组相对策略优化(GRPO)和知识蒸馏(Distillation)等技术 No 2. [1.9k星]Open-R1:完全开源的DeepSeek-R1复现项目,助力研究人员和开发者轻松复现和扩展R1模型。亮点:1. 完整复现流程,涵盖模型训练、评估和数据生成;2. 支持多种硬件加速,包括DDP和DeepSpeed ZeRO-2/3;3. 提供详尽的安装指南和示例代码,降低入门门槛 No 3. [100星]Cuda-120-Days-Challenge:120天系统掌握CUDA编程的高效学习计划!亮点:1. 每天都有明确的学习目标、实践练习和常见坑点提醒;2. 包含6个大型综合项目,巩固所学知识;3. 提供丰富的学习资源和参考书籍 No 4. [471星]Awesome-Framework-Gallery:为科研人员提供海量精美框架图的灵感宝库!亮点:1. 涵盖LLM、Diffusion、NeRF等前沿领域,超500张高清框架图;2. 持续更新,紧跟学术热点;3....
No 1. 受@宝玉xp 老师启发,分享几个用大模型做翻译的常用“密码”: 1. 强调精确和准确性: “准确翻译” (Accurately ...... No 2. [100星]Cuda-120-Days-Challenge:120天系统掌握CUDA编程的高效学习计划!亮点:1. 每天都有明确的学习目标、实践练习和常见坑点提醒;2. 包含6个大型综合项目,巩固所学知识;3. 提供丰富的学习资源和参考书籍 No 3. The Complete Mathematics of Neural Networks and Deep Learning:16岁小伙5小时手推深度学习数学原理 No 4. 免费书:《离散数学及其应用》,完美地平衡了五大核心主题:数学推理:培养严谨的逻辑思维、组合分析:掌握解决实际问题的技能、离散结构:建立抽象思维的桥梁、算法思维:为程序设计打下基础、应用建模:联系现实世界的纽带 No...
No 1. 受@宝玉xp 老师启发,分享几个用大模型做翻译的常用“密码”: 1. 强调精确和准确性: “准确翻译” (Accurately ...... No 2. OpenAI 的 Sebastien Bubeck 认为,o1 学习范式带来了一种 AI 能力的“涌现”:模型自主学习推理和解决问题,无需预先编程。这意味着AI ...... No 3. DeepSeek AI在Transformer/GPT架构上做出的三大核心创新: 1、巧妙解决了内存瓶颈:设计了低秩线性缓存机制,通过即时计算K/V的方式,大幅降低了内存占用。这就像是把一个庞大的仓库优化成了智能存储系统,既节省空间又提高效率。 ...... No 4. [1.4k星] 《系统设计面试:内幕指南(中文翻译)》系统设计面试的宝典,帮助求职者掌握大厂面试必备的系统设计知识,从基础到实战案例一应俱全...
No 1. [166星]Quant-Wiki:一个开源的量化金融知识百科,致力于打破国内外量化金融行业的信息差,通过汉化和开源的方式帮助更多人学习量化投资的核心知识和实战策略 No 2. DeepSeek如何训练最前沿的推理模型 No 3. 为什么“快乐学习”并不总是最理想的方式 No 4. 人工智能的数学:探讨了数学在人工智能中的关键作用,强调数学工具如何帮助我们更好地理解和提升AI系统,同时指出AI如何推动新数学的发展。本文聚焦于神经网络架构的建模和优化,鼓励更多数学家投身这一领域 No 5. [128星]CUDA学习资源库:为初学者和进阶者准备的CUDA编程学习指南,包含丰富的教程、实用示例和优化技巧,帮助你轻松掌握GPU加速应用开发 No 6. [197星]基于 RAG (Retrieval-Augmented Generation) 的知识库管理(RAG Web UI):基于智能检索增强生成技术的对话系统,从文档处理 -> 入向量数据库 -> Query召回 -> Open...
No 1. DeepSeek-R1 项目展现了开源的真谛——不仅开放了一系列模型,更罕见地公开了完整的训练细节。在开源社区中,他们或许是首个展示出强化学习持续突破性进展的项目。 ...... No 2. DeepSeek如何训练最前沿的推理模型 No 3. 500+页的Nvidia官方CUDA编程指南 No 4. 为什么“快乐学习”并不总是最理想的方式 No 5. (可免费书)学术写作指南:由哈佛大学学者编写的 3... No 6. 如何在书/论文上做笔记 No 7. 了解研究方法:一门帮你掌握研究技能的课程,适合所有需要提升研究能力的学习者,无论你是学生还是职场人士,都能通过这门课学会如何提出好问题、进行文献综述和规划研究项目,让你在学习或工作中更专业 No 8. [166星]Quant-Wiki:一个开源的量化金融知识百科,致力于打破国内外量化金融行业的信息差,通过汉化和开源的方式帮助更多人学习量化投资的核心知识和实战策略 No 9. Firecrawl...