目前Meg的内存是先申请一块大内存再根据不同的op所需的内存进行地址偏移从而最大的降低内存的峰值因此我想把input的内存也让其进行规划减少内存峰值
MegEngine是否可以将input内存融合到runtime时分配的内存里
输入也是op,用的是runtime内存,所以input内存也是融合了的。请问你是怎么使用和观测的,是观测到了没融合的情况吗?
我使用的是cpu后端推理,用内存测试软件可以看到 get_memory_ptr 申请一块内存,forward内部又去申请一块较大的内存。
可以确定get_memory_ptr的调用堆栈吗?是否能确定是input tensor申请的吗?
目前我使用的是无参数 get_memory_ptr: 在你们的文档里我看到“ 将以 void* 的形式返回 Tensor 的内存地址,如果 Tensor 没有申请内存,将会申请内存”
然后我用工具测的堆栈图
文档里的描述没有问题。目前看上去lite里面的第一个opr的input tensor没有被统一内存管理,这对于cpu端的模型是一个问题,但没什么处理方式。