Runyu Lu issues

Results 8 issues of


                                            Runyu Lu

Finish the heapsort of simplestl partial_sort

#### 算法思路堆排序`partial_sort`算法思路如下：一个大小为n的array，我们要获得`top k`个最大(最小)的元素。 * 以array的前k个元素建立一个大小为k的小（大）根堆（使用自定义`heapify()`函数） * 遍历剩余`n-k`个元素与小（大）根堆的堆顶元素比较，如果比堆顶元素大（小）那么就会交换两者同时重新更新小（大）根堆，遍历结束后会获得`top k`个最大（最小）的元素，但是并不是按照严格的顺序来排序。 * 利用堆顶是最大（最小）的元素对这k个元素使用常规意义下的堆排序来依次获得严格降序（升序）的`top k` array. *以上所有操作均为inplace操作* #### 复杂度分析 * 时间复杂度之前冒泡排序时间复杂度为`O(nk)`, 此处堆排序时间复杂度为`O((n-k)logk)`。 * 空间复杂度空间复杂度相同，均为`inplace`操作并没有使用额外空间。

[Prelu x86] Finish intrinsic with elempack merged

* Finish the merge of multi-elempack * Add some test samples for coverage * Please check the instancenorm: * #4062

[InstanceNorm Optimize x86] AVX512/AVX/SSE intrinsic with elempack merged

* Add the avx512/avx/sse inrinsic for instancenorm

test

x86

colossal-inference

Runyu Lu

Finish the heapsort of simplestl partial_sort

[Prelu x86] Finish intrinsic with elempack merged

[InstanceNorm Optimize x86] AVX512/AVX/SSE intrinsic with elempack merged

[feat] cuda graph support and refactor non-functional api

Add the onnxsim support

[Feat]Inference RPC Server Support

[Feat] Diffusion Model(PixArtAlpha/StableDiffusion3) Support

[WIP][Infer] Inference Distributed RPC Framework Optimization