TripoSR
TripoSR copied to clipboard
好像输入分辨率最大是320,可以通过修改代码实现增大输入分辨率然后实现得到的图效果更好嘛?
no
你弄更大的数据集,更大的模型,肯定行。
参照sora,chatgpt这种,现在视觉对象更多吧,每个对象特征更多吧,而且还是3D的,我觉得3D recon/gen的技术点可能探索的都差不多了,现在缺openai/google/meta这种大公司,做到几千亿参数。类似tripoSR, MVControl这种架构,基本上就差不多,做出立体版本的sora了。
这是我长期跟踪这个方向的一个判断。
你看这个算法的作者,其实中间有些技巧,不是为了把模型做的更好,而是想控制内存,比如80修改为40那个维度调整,想扩大batch不得已的样子。
兄弟,试试我改的这个 #68