转载

获取Ogre或D3D的渲染结果的效率问题

在Ogre中获取渲染结果可以使用RenderTarget的copyContentsToMemory方法，例：

char* src = new char[mWindow->getWidth() * mWindow->getHeight() * 4]; Ogre::PixelBox* pixbox = new Ogre::PixelBox(mWindow->getWidth(), mWindow->getHeight(), 1, Ogre::PF_X8R8G8B8, src );
mWindow->copyContentsToMemory(*pixbox, Ogre::RenderTarget::FB_AUTO);

mWindow为当前渲染窗口RenderWindow，如果使用RTT（渲染到纹理）也是同样的处理

需要注意的是导出格式应该是PF_X8R8G8B8，避免格式转换带来性能损耗

不幸的是，实际中发现这个方法出奇的慢

一个上百帧的场景竟然因为这一句话下降到了二三十帧

一般来说从GPU显存将数据复制到CPU内存是个很慢的过程，但这么慢也实在是太夸张了

查看copyContentsToMemory的实现，大概是下面的样子(做了简化)：

void D3D9Device::copyContentsToMemory(const PixelBox &dst)     {        IDirect3DSurface9 *surface = NULL;   D3DLOCKED_RECT lrect;      mDevice->CreateOffscreenPlainSurface(width, height, format, D3DPOOL_SYSTEMMEM, surface, 0);   IDirect3DSurface9 *backSurface;   mDevice->GetBackBuffer(0,0,D3DBACKBUFFER_TYPE_MONO,&backSurface);   mDevice->GetRenderTargetData(backSurface, surface);   surface->LockRect(&lrect, NULL,  D3DLOCK_READONLY);   memcpy(dst.data, lrect.pBits, dst.getWidth() * dst.getHeight()*4);   surface->UnlockRect();
   surface->Release();   tmp->Release();      }