aicoco icon indicating copy to clipboard operation
aicoco copied to clipboard

爱可可微博热门分享(5.22)

Open fly51fly opened this issue 1 year ago • 0 comments

No 1. 新书:基于Transformer和扩散模型的生成式AI实战,深入浅出地介绍如何使用Transformer和扩散模型进行生成式AI的实践指南,适合数据科学家和软件工程师阅读,提供丰富的代码示例和项目指导,帮助读者掌握创建文本、图像和声音生成模型的技术 No 2. PyTorch实用教程(第二版):面向深度学习工程师的全面指南,覆盖从零基础到项目应用和工程化部署的各个阶段,旨在帮助读者轻松掌握PyTorch的使用 No 3. [CL] OpenRLHF: An Easy-to-use, Scalable and High-performance ...... No 4. GPT-4o比GPT-4更容易产生幻觉? No 5. PyNorch:从零开始重建PyTorch的深度学习框架,支持C/C++、CUDA和Python,具备GPU加速和自动微分功能 No 6. 用 PyTorch 的 FSDP(Fully Sharded Data Parallel)和 Torch.compile 技术来最大化训练吞吐量 No 7. [RO] Octo: An Open-Source Generalist Robot Policy Octo是一个在80万机器人轨迹上预训练的开源通用机器人策略,支持多机器人零样本控制和快速适配新环境,为机器人学习社区提供一个统一的基础模型。 ...... No 8. 这两天在准备一个给专利局做的报告,用Gamma的时候发现一个问题——Gamma本身不支持思维导图,在其他地方做了粘进去的是图片,后续修改维护很不方便。经过摸索,发现ProcessOn提供的“嵌入第三方”功能(在“分享协作”里)可以用,将嵌入链接作为“网页或应用”组件插入Gamma,选“内联”方式,就得到 ...... No 9. #免费##抽奖# 携手@博文视点Broadview 送出3本《解构大语言模型:从线性回归到通用人工智能(全彩)》 No 10. 机器学习系统领域的资源列表,包含精选的论文、视频和代码库,旨在帮助新入门者快速掌握机器学习系统的关键概念和应用 No 11. 大型语言模型和人类的理论心智测试 No 12. 用Mojo加速k-means聚类指南:Python到Mojo的代码移植,实现快速聚类分析工具,适用于数据科学和机器学习领域'Fast k-means clustering in Mojo: Guide to No 13. [CL]《Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts》 No 14. Marker PDF转Markdown工具:高准确度快速转换PDF文档为Markdown格式,适用于书籍和科学论文,支持多语言,去除页眉页脚及其他元素,格式化表格和代码块,提取并保存图片,转换大部分方程为LaTeX,适用于GPU、CPU或MPS No 15. 从Claude 3 Sonnet中提取可解释特征 No 16. 文本到语音转换资源列表:集成了多种文本到语音转换技术的资源库,提供包括声学模型、声码器模型、风格化语音合成、多说话人语音合成以及自适应语音合成等研究和实现的链接,旨在帮助开发者和研究人员探索和实现高质量的文本到语音转换技术 No 17. 知识图谱在检索增强生成(RAG)中应用实战 No 18. CodiumAI Cover-Agent:自动化测试生成和代码覆盖增强的AI工具,旨在简化开发工作流程 No 19. 大型语言模型与检索增强生成技术(RAG)实践指南:为技术团队提供构建基础对话式AI解决方案的全面指导,结合理论知识与代码实现,适合具有基本技术背景的人员 No 20. 机器人学习环境列表:深度强化学习、模仿学习及具身AI研究的流行环境集合 No 21. SLAM-LLM:面向语音、语言、音频、音乐处理的深度学习工具包,支持研究人员和开发者训练自定义的多模态大型语言模型(MLLM),提供详细的训练方案和高性能的推理检查点 No 22. 几篇论文实现代码 No 23. [CV] MirrorGaussian: Reflecting 3D Gaussians for Reconstructing ...... No 24. [CV] From Sora What We Can See: A Survey of Text-to-Video Generation ...... No 25. [CL]《(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts》 No 26. [CV] Images that Sound: Composing Images and Sounds on a Single ...... No 27. 'CogVLM2 - 第二代多模态预训练对话模型,支持中英双语,显著提升文本和图像理解能力,优化模型性能’ ...... No 28. 提出一个多智能体虚拟翻译公司TRANSAGENTS,通过模拟传统翻译流程,利用多个角色协作的方式有效地解决了文学翻译中语言表达和文化细节方面的挑战。//[CL]《(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts》 No 29. Llama3从零实现:从矩阵乘法逐步实现Llama3模型 No 30. [LG]《Kolmogorov-Arnold Networks (KANs) for Time Series Analysis》 No 31. [LG]《Latent State Estimation Helps UI Agents to Reason》 No 32. //@爱可可-爱生活:欢迎参与~ No 33. 今日推介(第1413期):参数高效微调的High-Rank更新、用潜状态估计提升UI Agent推理性能、用数学问题解题探索LLM元认知能力、大规模混合专家统一多模态LLM、用多Agent协同翻译超长文学文本 ...... No 34. 晚安~ [月亮] No 35. Microsoft Phi-3 Cookbook:微软开发的Phi-3系列AI模型使用手册,提供如何在不同硬件设备上构建端到端解决方案的指南,包括在Azure AI Studio和Hugging Face上使用Phi-3模型的方法 No 36. 《爱丽丝在可微奇境的冒险——第一卷,土地之旅》是一本关于现代(深度)神经网络设计的袖珍书,强调了构建高效处理N维数据模型的重要性,被人覆盖从卷积到Transformer、SSM 及其他一些主题 No 37. Rockchip多媒体处理助手:为Rockchip平台提供FFmpeg命令行工具的硬件转码流水线,支持MPP和RGA,实现高效的视频编解码和图像处理功能 No 38. 'PAI-RAG: 基于大语言模型和多向量数据库的知识库问答系统白盒化解决方案' GitHub: github.com/aigc-apps/PAI-RAG ...... No 39. [CL] Mitigating Hallucinations in Large Language Models via ...... No 40. Glider:开源的电子墨水屏项目,专注于低延迟和高刷新率,支持多种电子纸显示技术 No 41. Goku:在Kubernetes上运行大规模开源工具集的GenAIOps参考架构,提供一系列在Kubernetes上用开源工具进行生成性AI操作(GenAIOps)的参考架构 No 42. [CL]《MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning》 No 43. MoRA通过使用方阵代替低秩矩阵实现了High-Rank更新,在参数量不变的情况下提升了模型记忆新知识的能力,特别是在记忆密集型任务中效果更佳。 No 44. StyleTalk语音对话数据集:用于训练大型语言模型以理解和响应不同说话风格的语音对话数据集,包含情感、语速和音量的变化,由人类标注过滤,旨在提高模型对语音模态的理解和响应能力 No 45. FIFO-Diffusion:由文本生成无限视频,无需训练即可生成长视频,优化视频内容的创作和分享流程 No 46. aipan-netdisk-search:基于Vue和Nuxt.js的开源网盘搜索项目,旨在让每个人都能拥有自己的网盘搜索网站,推荐自行部署以实现个性化服务 No 47. 通过构建提示,利用大语言模型的编码知识进行用户界面Agent潜状态的零样本估计,无需额外训练就可以明显提升决策性能。//[LG]《Latent State Estimation Helps UI Agents to Reason》 No 48. Vach: 实时流式数字头像,实现音视频同步对话,基本达到商用效果,支持文本和语音交互,适用于直播间业务和展厅显示屏互动 No 49. 手语研究相关的数据集和论文列表的集合,旨在为手语识别、翻译和其他相关工作提供灵感和资源支持 No 50. 免费课程:“构建多模态搜索和RAG系统”,旨在教授如何通过对比学习实现多模态模型训练,构建能处理文本、图像、音频和视频的多模态RAG系统,并用于行业实践

fly51fly avatar May 22 '24 14:05 fly51fly