爱可可微博热门分享(6.30)
No 1. 什么是Agent No 2. 有人完全用Stable Diffusion制作的漫画:用SD1.5完成,model为iComix,在提示中混合著名演员以保持人脸一致,用ControlNet Reference实现服装一致,用ControlNet OpenPose控制姿态 No 3. gptpdf: 用GPT解析PDF的自动化工具,将PDF内容转换为Markdown格式,支持排版、数学公式、表格、图片和图表的完美解析,每页平均价格0.013美元 No 4. ComfyUI老照片修复助手:一键还原老旧或低质量照片,支持自动去划痕和人脸增强,基于microsoft/Bringing-Old-Photos-Back-to-Life项目 No 5. WebDesignAgent:自动化网站设计Agent,支持将文本描述、图片和视觉线索转化为功能完备、设计精美的网站,简化网站创建过程 No 6. AI文本到视频模型:从零开始使用Python搭建小型AI视频生成模型,输入文本提示即可生成相应视频,涵盖理论概念理解到架构编码及最终结果生成全过程 No 7. unet.cu:基于纯CUDA的UNet扩散模型,优化图像合成性能,实现与PyTorch相当的训练速度 No 8. #免费##抽奖# 携手@异步图书 送出3本《Python极客项目编程(第2版)》 No 9. GeoSpy:基于AI的地理定位工具,揭示照片拍摄地点,由Graylark提供技术支持,支持Python语言开发 No 10. #免费##抽奖# 携手@图灵新知 @图灵文化 送出3本《CPython设计与实现》 No 11. complexipy:用于快速计算Python文件的认知复杂度,由Rust编写的Python库,提高代码可维护性 No 12. 智谱AI实时语音转文字助手:结合流式大型语言模型和GPT-SOVITS,通过网页实现跨网络服务调用,支持实时对话功能 No 13. Bora:生物医学通用视频生成模型,专为文本引导的生物医学视频生成设计,可提高医学教育、机器人辅助手术和医学AI开发的数据增强 No 14. OmniParse:多格式数据解析与优化平台,将非结构化数据转换成结构化数据,专为GenAI框架增强兼容性设计,可从文档到多媒体高效转换 No 15. #抽奖##赠书# 携手@博文视点Broadview 送出3本《高效深度学习:模型压缩与设计(全彩)》 No 16. 几篇论文实现代码 No 17. Eidolon:开源智能Agent服务框架,简化智能Agent的设计和部署,支持模块化组件定制和升级,无厂商锁定,适应快速变化的AI领域 No 18. Agentic LLM漏洞扫描器:开源的大型语言模型(LLM)安全扫描工具,提供定制化规则集和基于Agent的攻击测试,全面模糊测试任何LLM,集成LLM API并进行压力测试,支持广泛的模糊测试和攻击技术 No 19. 实时语音AI助手:快速响应语音查询的智能Agent,能够在大约500毫秒内以语音形式回答问题,具有高度灵活性,支持任意大型语言模型、文本到语音(TTS)和语音到文本(STT)模型的替换使用,适用于客户服务机器人、接待员等多种场景 No 20. Meta LLM Compiler:面向编译器优化的先进语言模型,能够读写AT&T风格的汇编语言、LLVM IR和C代码,模拟clang编译器的功能,适用于代码优化和编译器推理任务 No 21. cz-blog个人博客系统:基于SpringBoot + Thymeleaf + Vue开发的全栈博客平台,提供自适应的前端界面和后台管理功能,适用于毕设、实习和个人学习项目 No 22. At-RTOS:面向嵌入式控制器的开放友好实时操作系统,支持多种硬件平台和编译器,简化嵌入式固件开发过程 No 23. Free GPT 3.5 API:一个免费的GPT 3.5模型API服务,支持多种授权方式,简化了API接口的调用和部署过程 No 24. 人工智能规模化的误区 No 25. ScreenPipe:将屏幕内容转化为行动的智能工具,利用大型语言模型(LLM)进行屏幕内容分析与操作,灵感来源于adept.ai、rewind.ai和Apple Shortcut,采用Rust + WASM技术实现 No 26. [CV] Video-Infinity: Distributed Long Video Generation 通过分布式推理和两种协同机制实现多GPU并行加速长视频生成,可在5分钟内生成2300帧视频,比现有方法提速超过100倍。 ...... No 27. 看图学大模型:以图解形式介绍大型语言模型技术,帮助读者快速理解复杂概念,适合初学者和专业人士 No 28. [CL]《From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models》 No 29. 晚安~ [月亮] No 30. [CV]《Long Context Transfer from Language to Vision》 No 31. 早![太阳] No 32. ComfyUI Photoshop插件:集成AI生成功能,提升Photoshop图像编辑体验,支持一键式图像艺术化转换,简化操作流程,增强性能 No 33. Kinopio创意思考工具:空间思考画布,助你整理新想法和解决难题,通过客户端Web应用实现空间、卡片、连接等的读写操作,支持离线编辑和API请求同步更新 No 34. 本文通过在文本上训练长上下文语言模型,发现其上下文长度可以直接迁移到多模态对齐模型中,从而无需长视频训练就可以处理更多视觉信息,还提出了UniRes统一编码和V-NIAH评测。//[CV]《Long Context Transfer from Language to Vision》 No 35. Chrome AI:Chrome内置模型(Gemini Nano)的Vercel AI提供器,提供实验性的AI功能,用于生成文本和对象,支持自定义设置 No 36. Mako: 基于Rust的极速生产级Web打包器,适用于Web应用、混合应用、小程序(部分)、低代码、无服务器等场景 No 37. portBLAS:基于SYCL开放标准的BLAS实现,为高性能计算提供现代化的C++实现 No 38. Docker for Robotics:机器人操作系统(ROS/ROS 2)与Docker集成的最佳实践指南,提供Linux和Windows操作系统上的开发建议,涵盖图形用户界面显示、硬件操作、实时代码能力以及多机器网络设置。同时提供Visual Studio Code的容器设置指导 No 39. 综述了语言模型生成算法的发展,从token级生成、元生成到高效生成,提供了统一的角度,有助于理解这个新兴而又日新月异的研究领域。//[CL]《From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models》 No 40. 通过决策边界视角发现LLM零样本学习存在决策边界不平滑问题,提出了微调和主动学习等方法改善其鲁棒性。//[LG]《Probing the Decision Boundaries of In-context Learning in Large Language Models》 No 41. [CV] Cambrian-1: A Fully Open, Vision-Centric Exploration ...... No 42. DripTable:轻量、强大的企业级低代码表格可视化搭建解决方案,基于React和JSON Schema,通过简单配置快速生成动态表格页面 No 43. 知识图谱RAG:利用知识图谱和文档网络提升RAG性能的工具,可自动创建知识图谱和文档网络,增强大型语言模型的上下文理解 No 44. ASEED:AI搜索引擎评估数据集,基于真实用户搜索场景重构,用于评估主流AI搜索引擎的问答质量,涵盖多种语言,包括英语、日语、简体中文、俄语和繁体中文 No 45. [AI] Computational Life: How Well-formed, Self-replicating ...... No 46. llama-agents:构建、迭代和生产化多智能体系统的异步优先框架,支持多智能体通信、分布式工具执行、人机交互等 No 47. 新书:面向生成式AI的提示工程 No 48. 今日推介(第1452期):探测大型语言模型上下文学习的决策边界、不正确合成数据上的强化学习将LLM数学推理效率提高了八倍、大型语言模型的推理时算法综述、减轻毒性的偏好微调可跨语言泛化、从语言到视觉的上下文长度迁移 ...... No 49. Google Cloud Compute机器类型选择器:帮用户在Google Cloud Platform多个区域中选择最优的Google Compute Engine机器类型或实例,通过收集和比较不同来源的信息来优化云资源配置 No 50. [CL]《Preference Tuning For Toxicity Mitigation Generalizes Across Languages》