fc2ブログ
 

連載1 高速なメモリーコピー その4

メモリーアライメントのそろえ方
 
void *p1 = malloc( size + 15 );
void *p2 = ((unsigned long)p + 15) & 0xFFFFFFF0;
 
まずは確保したいバッファサイズ(size)より15バイト多く確保してそのアドレスをp1とします。
p1のアドレスがどうなるかは環境に依存するらしいので16バイトの境界にあっているとは限りません。なのでこのままでは高速なSSE命令が使えないので二行目の計算を行って16バイトの境界に合わせます。
計算方法は15を足してから下位4bitをクリアするだけです。これでp2の先頭から処理することで高速なSSE命令を使えます。
ちなみに、次の関数を使うと最初からアライメントの揃ったバッファのアドレスを取得できるようです(実際に使ったことは有りませんが)。

void * _aligned_malloc( 
    size_t size, 
    size_t alignment
);

ex) void *p3 = _aligned_malloc( size, 16 );
 
このように16バイトのアライメントに揃えたバッファ_srcから_dstに対して_sizeバイトコピーするSSE処理は次のようになります。

void ssememcpy1( void *_dst, void *_src, DWORD _size )
{
    if (_size < 64) {
        memcpy( _dst, _src, _size );
        return ;
    }
__asm
{
    mov     esi, _src;
    mov     eax, _dst;
    sub     eax, esi;
    mov     ecx, _size;
    shr     ecx, 6;             // ecx = ecx / 64;
LOOP_MAIN:
    movdqa  xmm0, [esi+ 0];
    movdqa  xmm1, [esi+16];
    movdqa  xmm2, [esi+32];
    movdqa  xmm3, [esi+48];
    MOVNTDQ [esi+eax+ 0], xmm0;
    MOVNTDQ [esi+eax+16], xmm1;
    MOVNTDQ [esi+eax+32], xmm2;
    MOVNTDQ [esi+eax+48], xmm3;
    add     esi, 64;
    loop    LOOP_MAIN;
 
    add     eax, esi;
    mov     _src, esi;
    mov     _dst, eax;
}
    memcpy( _dst, _src, _size & 0x0000003F );
}
 
一回のループで64バイトずつコピーしていきます。 最初と最後に64バイト以下の端数の処理をmemcpy()を使って行います。
 
このように自分で管理するメモリー(自分で確保するメモリー)で高速な動作を求めるなら簡単に話が終わってしまうのですが、コーデックなどではアプリケーションやOSが確保したバッファを使って処理しなければいけない場面があり、その場合はアライメントが揃っている保証はありません。
したがって、上記の処理だけでは不十分なので、次回からは自分で管理できない場合について書いていきます。
関連記事


コメントの投稿

 
 
あまラボへようこそ
このブログでは自作ソフトの最新情報やtips、PC動画に関する話題を掲載していきます。各記事へは下にあるカテゴリからアクセスして下さい。

ファイルのダウンロードはホームページの方でお願い致します。

質問・要望・不具合報告はこちら
アマレコTV
アマミキ!
アマレココ
アマレコ・ライト
ファンタジーリモート
AMVコーデック



ホームページ
カテゴリ
最新コメント
カレンダー
04 | 2022/05 | 06
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -
最新記事
最新トラックバック
ブログ内タグ

アマレコTV ビデオキャプチャ AMVコーデック アマレコVR Oculus アマレココ Quest アマミキ! コーデック gQuest SC500 動画配信 Pico GO ファンタジーリモート 4K アマレコライト プラグイン G2 AMV4 oculus ライブ機能 SC512 Unity AVX2 デスクトップキャプチャ Passthrough リモートソフト FAQ 質問コーナー DirectShow ニコニコ動画 120Hz HDキャプチャ 遅延 可変再生速度 レゴ 解説動画 組み換え VR LEGO XL2420T GV-USB2 2 倍速液晶 AMV2MT 液晶モニター アマステ ベンチマーク デインターレース Intensity VRonVR PS4 パススルー機能 Meta Pro MonsterX3A designs VideoKeeper2 XCAPTURE-1 Alternate AVX インストール GV-USB SD-USB2CAP4 RDT233WX-Z 32ZP2 31006 ffmpeg Rift WindowsMR 60fps 背景透過 31024 T2 画像処理 RGBキャプチャ UtVideo Shadow Play RYZEN Haswell 電源オプション MP3 HDCP MonsterXU3.0R HDMI ゲームスムーズモード 音遅延 LameACM HT 倍速補完処理 31021 フィギュア ハイパースレッディングテクノロジー MPC NVEnc OBS QSV モノステ DirectShowFilter プレビュー 擬似NTSCキャプチャ Livetube AtomでHDキャプチャ キャプチャーツール シンクライアント イベント SD-USB2CUP4 IntensityPro 32ZP32 額縁遅延 REGZA 液晶テレビ 倍速駆動 DC-HD1 リプレイ機能 音ズレ ZP3 GV-USB3 passthrough APIパススルー機能 API 検証 60Hz 新アマレコVR 新プレイヤー機能 AMPlayer Robust Video Hand Tracking 2.0 SkyBox ファイルマネージャプラス Matting python pytorch 90Hz Windows キャプチャカード 可逆圧縮 GPU使用率 SKnet SSE オーバーレイ XCapture-1 Kabelake LAVFilters Preferred フレーム間圧縮 VRコントローラー MR VR動画 SteamVR Filter Tweaker 録画 

ブログ内検索
月別アーカイブ
アマレココに関するリンク
お世話になっているソフトのリンク
RSSリンクの表示
管理画面
  • 管理画面