// Tile size: 1x8 // Accumulators: 0-7 // Col regs: 8-14 // Row regs: 15 vmovaps zmm15, [rax] vbroadcastss zmm8, dword ptr [rcx + 0 * 4] vfmadd231ps zmm0, zmm15, zmm8 vbroadcastss zmm9, dword ptr [rcx + 1 * 4] vfmadd231ps zmm1, zmm15, zmm9 vbroadcastss zmm10, dword ptr [rcx + 2 * 4] vfmadd231ps zmm2, zmm15, zmm10 vbroadcastss zmm11, dword ptr [rcx + 3 * 4] vfmadd231ps zmm3, zmm15, zmm11 vbroadcastss zmm12, dword ptr [rcx + 4 * 4] vfmadd231ps zmm4, zmm15, zmm12 vbroadcastss zmm13, dword ptr [rcx + 5 * 4] vfmadd231ps zmm5, zmm15, zmm13 vbroadcastss zmm10, dword ptr [rcx + 6 * 4] vfmadd231ps zmm6, zmm15, zmm10 vbroadcastss zmm11, dword ptr [rcx + 7 * 4] vfmadd231ps zmm7, zmm15, zmm11 vmovaps zmm15, [rax+64] vbroadcastss zmm8, dword ptr [rcx + 8 * 4] vfmadd231ps zmm0, zmm15, zmm8 vbroadcastss zmm9, dword ptr [rcx + 9 * 4] vfmadd231ps zmm1, zmm15, zmm9 vbroadcastss zmm10, dword ptr [rcx + 10 * 4] vfmadd231ps zmm2, zmm15, zmm10 vbroadcastss zmm11, dword ptr [rcx + 11 * 4] vfmadd231ps zmm3, zmm15, zmm11 vbroadcastss zmm12, dword ptr [rcx + 12 * 4] vfmadd231ps zmm4, zmm15, zmm12 vbroadcastss zmm13, dword ptr [rcx + 13 * 4] vfmadd231ps zmm5, zmm15, zmm13 vbroadcastss zmm10, dword ptr [rcx + 14 * 4] vfmadd231ps zmm6, zmm15, zmm10 vbroadcastss zmm11, dword ptr [rcx + 15 * 4] vfmadd231ps zmm7, zmm15, zmm11 add rcx, 64 add rax, 128