FC2ブログ
 

連載1 高速なメモリーコピー その6

今回はパターン3についてです。
コピー元:0x11111115
コピー先:0x22222229

の場合はとりあえずパターン2と同様に最初の11バイトをmemcpy()で処理して次のアドレスからメインの処理を開始します。
コピー元:0x11111120
コピー先:0x22222234

最初のmemcpy()でコピー元のアライメントが揃うので、読み込みは何も考えずにmovdqaで16バイトずつガンガン読込んでいきます。

問題は書き込みです。このままではアライメントが揃っていないのでmovntdqが使えません。そこで、読込んだ16バイトの内、12バイトだけを汎用命令のmovdquで書き込んで、残り4バイトはレジスターに残しておきます。こうすると、次の書き込みアドレスが0x22222240になるので、残りの4バイトと新しく読み込んだ16バイトの内の前方12バイトをレジスター上で合成してからmovntdqで書き込むことができます。

レジスターで合成する処理がちょっと面倒ですが、読み書き共にアライメントが揃うこの方法が私の知る限り最も効率良くメモリーコピーを行えます。

    movdqa  xmm0, [esi+ 0];
    movdqu  [esi+eax+ 0], xmm0;
    add     eax, _SHIFT;
    psrldq  xmm0, _SHIFT;
 
LB_SHIFT( MAIN ):
    movdqa  xmm1, [esi+16];
    movdqa  xmm3, [esi+32];
    movdqa  xmm2, xmm1;
    movdqa  xmm4, xmm3;
    pslldq  xmm1, 16-_SHIFT;
    psrldq  xmm2, _SHIFT;
    pslldq  xmm3, 16-_SHIFT;
    psrldq  xmm4, _SHIFT;
    por     xmm1, xmm0;
    por     xmm3, xmm2;
    MOVNTDQ [esi+eax+ 0], xmm1;
    MOVNTDQ [esi+eax+16], xmm3;
 
    movdqa  xmm1, [esi+48];
    movdqa  xmm3, [esi+64];
    movdqa  xmm2, xmm1;
    movdqa  xmm0, xmm3;
    pslldq  xmm1, 16-_SHIFT;
    psrldq  xmm2, _SHIFT;
    pslldq  xmm3, 16-_SHIFT;
    psrldq  xmm0, _SHIFT;
    por     xmm1, xmm4;
    por     xmm3, xmm2;
    MOVNTDQ [esi+eax+32], xmm1;
    MOVNTDQ [esi+eax+48], xmm3;
 
    add     esi, 64;
    loop    LB_SHIFT( MAIN );

_SHIFTはズレ量を示す定数です。
コピー元:0x11111115
コピー先:0x22222229
の場合の_SHIFTは12となります。これらをマクロにして、ズレ量が1の場合から15の場合の15種類を用意することでどんなアドレスの組み合わせが来ても対応できるようにします。
 
高速なメモリーコピーの紹介は以上です。高速処理はアライメントを揃えることが何より重要。最初からアライメントが揃っている場合や自分で管理出来るときは簡単。
アライメントが揃っている保証が無い場合は少々面倒でもアライメントを揃える工夫をするとプログラムは劇的に早くなるそんなことをメモリーコピーを通じて感じていただけらら幸いです。

次回はベンチマークテストを行って締めくくろうと思います。
関連記事


コメントの投稿

 
 
あまラボへようこそ
このブログでは自作ソフトの最新情報やtips、PC動画に関する話題を掲載していきます。各記事へは下にあるカテゴリからアクセスして下さい。

ファイルのダウンロードはホームページの方でお願い致します。

質問・要望・不具合報告はこちら
アマレコTV
アマミキ!
アマレココ
アマレコ・ライト
ファンタジーリモート
AMVコーデック



ホームページ
カテゴリ
最新コメント
カレンダー
03 | 2021/04 | 05
- - - - 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 -
最新記事
最新トラックバック
ブログ内タグ

アマレコTV ビデオキャプチャ AMVコーデック アマレココ アマレコVR Oculus アマミキ! Quest コーデック gQuest SC500 動画配信 Pico GO 4K ファンタジーリモート アマレコライト プラグイン G2 AMV4 oculus SC512 ライブ機能 Unity デスクトップキャプチャ AVX2 FAQ 質問コーナー リモートソフト HDキャプチャ ニコニコ動画 DirectShow レゴ 組み換え 遅延 可変再生速度 LEGO 解説動画 XL2420T 2 GV-USB2 120Hz アマステ 液晶モニター AMV2MT PS4 倍速液晶 デインターレース ベンチマーク Pro MonsterX3A Intensity ffmpeg 31024 Rift WindowsMR VideoKeeper2 Alternate 31006 designs UtVideo AVX XCAPTURE-1 SD-USB2CAP4 RGBキャプチャ 32ZP2 RDT233WX-Z GV-USB Shadow T2 RYZEN Play キャプチャーツール イベント 倍速駆動 シンクライアント リプレイ機能 SD-USB2CUP4 擬似NTSCキャプチャ プレビュー DirectShowFilter IntensityPro モノステ DC-HD1 Livetube AtomでHDキャプチャ LameACM GV-USB3 キャプチャカード 可逆圧縮 GPU使用率 SKnet SSE 録画 オーバーレイ XCapture-1 Kabelake LAVFilters Preferred MR Windows 90Hz 新アマレコVR VRコントローラー フレーム間圧縮 Filter Tweaker SteamVR VR動画 音ズレ フィギュア MonsterXU3.0R 音遅延 新プレイヤー機能 MP3 ゲームスムーズモード 倍速補完処理 32ZP32 額縁遅延 REGZA ZP3 Haswell 電源オプション MPC ハイパースレッディングテクノロジー HT 31021 インストール OBS HDCP HDMI QSV NVEnc 液晶テレビ 

ブログ内検索
月別アーカイブ
アマレココに関するリンク
お世話になっているソフトのリンク
RSSリンクの表示
管理画面
  • 管理画面