first commit

2019-08-25 16:12:39 +08:00 · 2019-08-25 16:12:39 +08:00 · 604f1cb18a
commit 604f1cb18a
9 changed files with 1683 additions and 0 deletions
--- a/30
+++ b/30
@ -0,0 +1,30 @@
 ETICS_LMAX   ?= 2
 ETICS_NMAX   ?= 10
 GPUARCH      ?= sm_75
 CUDAHOME     ?= /usr/local/cuda
 OPTIMIZATION ?= 3
 CXX          ?= g++
 NVCC         ?= $(CUDAHOME)/bin/nvcc
 CXXFLAGS     += -O$(OPTIMIZATION)
 all : libyebisug6.a libyebisug6.nb.a
 yebisu_g6.o : yebisu_g6.cu yebisu_g6.h particle.h
 	$(NVCC) -arch=$(GPUARCH) $(CUDAFLAGS) -Xcompiler "$(CXXFLAGS)" -I$(CUDAHOME)/include -I$(CUDAHOME)/samples/common/inc -c yebisu_g6.cu
 grape6.o : grape6.cpp
 	$(CXX) $(CXXFLAGS) -c -DNB_FLAG=0 -o $@ $<
 grape6.nb.o : grape6.cpp
 	$(CXX) $(CXXFLAGS) -c -DNB_FLAG=1 -o $@ $<
 libyebisug6.a : yebisu_g6.o grape6.o
 	ar -r $@ $^
 	ranlib $@
 libyebisug6.nb.a : yebisu_g6.o grape6.nb.o
 	ar -r $@ $^
 	ranlib $@
 clean:
 	rm -f *.o *.a
--- a/cuda_pointer.h
+++ b/cuda_pointer.h
@ -0,0 +1,54 @@
 #include <assert.h>
 // #include <cutil.h>
 #include <helper_cuda.h>
 template <typename T>
 struct cudaPointer{
 	T *dev_pointer;
 	T *host_pointer;
 	int size;
 	cudaPointer(){
 		dev_pointer = NULL;
 		host_pointer = NULL;
 		size = 0;
 	}
 	~cudaPointer(){
 		// free();
 	}
 	void allocate(int _size){
 		size = _size;
 		void *p;
 		checkCudaErrors(cudaMalloc(&p, size * sizeof(T)));
 		assert(p);
 		dev_pointer = (T*)p;
 		checkCudaErrors(cudaMallocHost(&p, size * sizeof(T)));
 		assert(p);
 		host_pointer = (T*)p;
 	}
 	void free(){
 		checkCudaErrors(cudaFree(dev_pointer));
 		checkCudaErrors(cudaFreeHost(host_pointer));
 		dev_pointer = NULL;
 		host_pointer = NULL;
 		size = 0;
 	}
 	void htod(int count){
 		checkCudaErrors(cudaMemcpy(dev_pointer, host_pointer, count * sizeof(T), cudaMemcpyHostToDevice));
 	}
 	void htod(){
 		this->htod(size);
 	}
 	void dtoh(int count){
 		checkCudaErrors(cudaMemcpy(host_pointer, dev_pointer, count * sizeof(T), cudaMemcpyDeviceToHost));
 	}
 	void dtoh(){
 		this->dtoh(size);
 	}
 	T &operator [] (int i){
 		return host_pointer[i];
 	}
 	operator T* (){
 		return dev_pointer;
 	}
 };
--- a/g6util.h
+++ b/g6util.h
@ -0,0 +1,90 @@
 #ifndef G6UTIL_H
 #define G6UTIL_H
 // #include "typedef.h"
 /* constant definitions */
 #if !defined(__LANGUAGE_FORTRAN__) && !defined(_LANGUAGE_FORTRAN)
 #if defined(__cplusplus)
 extern "C"
 {
 #endif
    /* C interface */
    /*
     * standard functions.
     * the number of the cards is hidden to the user.
     */
    void g6_open_all(void);
    void g6_close_all(void);
    int g6_set_j_particle_all(int address, int index, double tj, double dtj, double mass,
                              double a2by18[3], double a1by6[3], double aby2[3], double v[3], double x[3]);
    int g6_set_j_particle_mxonly_all(int address, int index, double mass, double x[3]);
    void g6_set_ti_all(double ti);
    void g6calc_firsthalf_all(int nj, int ni, int index[], double xi[][3], double vi[][3], 
                              double fold[][3], double jold[][3], double phiold[], double eps2, double h2[]);
    void g6calc_firsthalf0_all(int nj, int ni, int index[], double xi[][3], double vi[][3], 
                               double fold[][3], double jold[][3], double phiold[], double *eps2, double h2[], int mode);
    int g6calc_lasthalf_all(int nj, int ni, int index[], double xi[][3], double vi[][3], 
                            double eps2, double h2[], double acc[][3], double jerk[][3], double pot[]);
    int g6calc_lasthalf0_all(int nj, int ni, int index[], double xi[][3], double vi[][3], 
                             double *eps2, double h2[], double acc[][3], double jerk[][3], double pot[], int mode);
    int g6calc_lasthalf2_all(int nj, int ni, int index[], double xi[][3], double vi[][3],
                             double eps2, double h2[], double acc[][3], double jerk[][3], double pot[], int nnbindex[]);
    int g6_read_neighbour_list_all(void);
    int g6_get_neighbour_list_all(int ipipe, int maxlength, int *nblen, int nbl[]);
    void g6_set_nip_all(int nip);
    void g6_set_njp_all(int njp);
    void g6_set_i_particle_scales_from_real_value_all(int address, double acc[3], double jerk[3], double phi,
                                                      double jfactor, double ffactor);
    void g6_set_i_particle_all(int address, int index, double x[3], double v[3], double eps2, double h2);
    int g6_get_force_all(double acc[][3], double jerk[][3], double phi[], int flag[]);
    int g6_get_force_etc_all(double acc[][3], double jerk[][3], double phi[], int nnbindex[], int flag[]);
    void g6_get_predicted_j_particles_all(int nj, double (*x)[3], double (*v)[3]);
    int g6_getnjmax_all(void);
    /*
     * primitive functions to control multiple cards individually.
     * the user needs to specify card's device id explicitly.
     */
    void g6_open(int clusterid);
    void g6_close(int clusterid);
    void g6_set_tunit(int newtunit);
    void g6_set_xunit(int newxunit);
    int g6_set_j_particle(int clusterid, int address, int index, double tj, double dtj, double mass,
                          double a2by18[3], double a1by6[3], double aby2[3], double v[3], double x[3]);
    int g6_set_j_particle_mxonly(int  clusterid, int address, int index, double mass, double x[3]);
    void g6_set_ti(int clusterid, double ti);
    void g6calc_firsthalf(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3], 
                          double fold[][3], double jold[][3], double phiold[], double eps2, double h2[]);
    void g6calc_firsthalf0(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3], 
                           double fold[][3], double jold[][3], double phiold[], double *eps2, double h2[], int mode);
    int g6calc_lasthalf(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3], 
                        double eps2, double h2[], double acc[][3], double jerk[][3], double pot[]);
    int g6calc_lasthalf0(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3], 
                         double *eps2, double h2[], double acc[][3], double jerk[][3], double pot[], int mode);
    int g6calc_lasthalf2(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3],
                         double eps2, double h2[], double acc[][3], double jerk[][3], double pot[], int nnbindex[]);
    int g6_read_neighbour_list(int clusterid);
    int g6_get_neighbour_list(int clusterid, int ipipe, int maxlength, int *nblen, int nbl[]);
    void g6_set_neighbour_list_sort_mode(int mode);
    int g6_get_neighbour_list_sort_mode(void);
    int g6_npipes(void);
    void g6_set_nip(int clusterid, int nip);
    void g6_set_njp(int clusterid, int njp);
    void g6_set_i_particle_scales_from_real_value(int clusterid, int address, double acc[3], double jerk[3], double phi,
                                                  double jfactor, double ffactor);
    void g6_set_i_particle(int clusterid, int address, int index, double x[3], double v[3], double eps2, double h2);
    int g6_get_force(int clusterid, double acc[][3], double jerk[][3], double phi[], int flag[]);
    int g6_get_force_etc(int clusterid, double acc[][3], double jerk[][3], double phi[], int nnbindex[], int flag[]);
    void g6_get_predicted_j_particles(int clusterid, int nj, double x[][3], double v[][3]);
    int g6_getnjmax(int clusterid);
 #if defined(__cplusplus)
 }
 #endif
 #endif /* LANGUAGE_FORTRAN */
 #endif /* G6UTIL_H */
--- a/gpu.h
+++ b/gpu.h
@ -0,0 +1,80 @@
 //#define GPUTYPE 8800		// MP=16 
 //#define NJBL_value 32
 //#define GPUTYPE C1060		// MP=30 
 //#define NJBL_value 30
 //#define GPUTYPE M2070		// MP=14 
 //#define NJBL_value 28
 //#define GPUTYPE GF460		// MP=7	 
 //#define NJBL_value 14
 //#define GPUTYPE GF470		// MP=14 
 //#define NJBL_value 28
 //#define GPUTYPE GF480		// MP=15 
 //#define NJBL_value 30
 //#define GPUTYPE GF570		// MP=15 
 //#define NJBL_value 30
 #define GPUTYPE K20m		// MP=13 
 #define NJBL_value 26
 //#define GPUTYPE GF660		// MP=5 
 //#define NJBL_value 10
 //#define GPUTYPE GF780		// MP=15
 //#define NJBL_value 30
 //#define GPUTYPE GF1080	// MP=20 
 //#define NJBL_value 20
 //#define GPUTYPE GFTITANX	// MP=24
 //#define NJBL_value 24
 //	NJBLOCKS = 1 or 2 x MP 
 //	NXREDUCE is a power of 2 and >= NJBLOCKS ~32 is good for all
 //	NYREDUCE is a power of 2 < NXREDUCE ~4 is good for all
 enum{
 	SM_VER   = 35,
 	NTHREADS = 128,
 	NTHSCAT  = 64,
 	NIBLOCKS = 16,
 	NJPSHRE  = 32,
 	NIMAX    = (NTHREADS * NIBLOCKS),
 	NJBLOCKS = NJBL_value,
 	NXREDUCE = 32,
 	NYREDUCE = 4,
 };
 /*
 ----------------------------------------------------------------------------
 type	 MP x Cores  x GPU clock rate 	SP Gflop/s	DP Gflop/s 
 	      per MP	   (GHz)       (nbody n=200k)  (nbody n=200k)
 8800 GT  14 x  8     x 1.62 =  181.44	 		  - 
 8800 512 16 x  8     x 1.80 =  230.40	 298.266	  - 
 9800 GTX 16 x  8     x 1.85 =  236.80	 331.754	  -
 250 GTS  16 x  8     x 1.73 =  221.44	 
 C1060    30 x  8     x 1.30 =  312.00	 450.861	 55.412
 M2070	 14 x  32    x 1.15 =  515.20	 546.416	250.454
 460 v2    7 x  48    x 1.56 =  524.16    421.335	 67.939
 470      14 x  32    x 1.22 =  546.56    578.572	105.796
 480      15 x  32    x 1.40 =  672.00	 705.514	145.502
 570	 15 x  32    x 1.46 =  700.80	 736.882	151.960
 670	  7 x 192    x 0.71 =  954.24	1151.030        100.092
 680	  8 x 192    x 0.71 = 1090.56	1187.710	101.211
 K20m     13 x 192    x 0.71 = 1772.16	1322.374	576.523
 TITAN    14 x 192    x 0.88 = 2365.44	2026.287	751.671
 780 Ti	 15 x 192    x 0.93 = 2678.40	2691.603	198.987
 ----------------------------------------------------------------------------
 */
--- a/grape6.cpp
+++ b/grape6.cpp
@ -0,0 +1,173 @@
 #include <algorithm>
 #include <cassert>
 #include "yebisu_g6.h"
 #include "g6util.h"
 #define NIMAX  2048
 #define MAXDEV 4
 #ifndef NB_FLAG
 #define NB_FLAG 0
 #endif
 extern "C"
 {
 	static int sort_mode = 0;
 	static double eps2_buf[MAXDEV][NIMAX];
 	static int nnb_buf[MAXDEV][NIMAX];
    void g6_open(int clusterid){
 		assert(clusterid < MAXDEV);
 		assert(NIMAX >= g6_npipes());
 		yebisu_g6_open(clusterid);
 	}
    void g6_close(int clusterid){
 		yebisu_g6_close(clusterid);
 	}
    void g6_set_tunit(int newtunit){}
    void g6_set_xunit(int newxunit){}
    int g6_set_j_particle(
 			int clusterid,
 			int address,
 			int index,
 			double tj,
 			double dtj,
 			double mass,
 			double a2by18[3],
 			double a1by6[3],
 			double aby2[3],
 			double v[3],
 			double x[3])
 	{
 		yebisu_g6_push_jp(clusterid, x, v, aby2, a1by6, mass, tj, index, address);
 		return 0;
 	}
    void g6_set_ti(int clusterid, double ti){
 		yebisu_g6_set_ti(clusterid, ti);
 	}
    void g6calc_firsthalf0(
 			int clusterid,
 			int nj,
 			int ni,
 			int index[],
 			double xi[][3],
 			double vi[][3],
 			double fold[][3],
 			double jold[][3],
 			double phiold[],
 			double *eps2,
 			double h2[],
 			int mode)
 	{
 		double *eps2_ptr = eps2;
 		if(mode){ // constand eps2
 			eps2_ptr = eps2_buf[clusterid];
 			for(int i=0; i<ni; i++){
 				eps2_ptr[i] = *eps2;
 			}
 		}
 		yebisu_g6_set_ip(clusterid, ni, xi, vi, eps2_ptr, h2, index);
 		yebisu_g6_launch_gravity(clusterid, ni, nj, NB_FLAG);
 	}
    void g6calc_firsthalf(
 			int clusterid,
 			int nj,
 			int ni,
 			int index[],
 			double xi[][3],
 			double vi[][3],
 			double fold[][3],
 			double jold[][3],
 			double phiold[],
 			double eps2,
 			double h2[])
 	{
 		g6calc_firsthalf0(clusterid, nj, ni, index, xi, vi, fold, jold, phiold, &eps2, h2, 1);
 	}
    int g6calc_lasthalf(
 			int clusterid,
 			int nj, 
 			int ni, 
 			int index[], 
 			double xi[][3], 
 			double vi[][3], 
 			double eps2, 
 			double h2[], 
 			double acc[][3], 
 			double jerk[][3], 
 			double pot[])
 	{
 		yebisu_g6_get_force(clusterid, ni, acc, jerk, pot, nnb_buf[clusterid]);
 		return 0;
 	}
    int g6calc_lasthalf0(
 			int clusterid, 
 			int nj, 
 			int ni, 
 			int index[], 
 			double xi[][3], 
 			double vi[][3], 
 			double *eps2, 
 			double h2[], 
 			double acc[][3], 
 			double jerk[][3], 
 			double pot[], 
 			int mode)
 	{
 		yebisu_g6_get_force(clusterid, ni, acc, jerk, pot, nnb_buf[clusterid]);
 		return 0;
 	}
    int g6calc_lasthalf2(
 			int clusterid, 
 			int nj, 
 			int ni, 
 			int index[], 
 			double xi[][3], 
 			double vi[][3], 
 			double eps2, 
 			double h2[], 
 			double acc[][3], 
 			double jerk[][3], 
 			double pot[], 
 			int nnbindex[])
 	{
 		assert(NB_FLAG);
 		yebisu_g6_get_force(clusterid, ni, acc, jerk, pot, nnbindex);
 		return 0;
 	}
    int g6_read_neighbour_list(int clusterid){
 		assert(NB_FLAG);
 		yebisu_g6_receive_neighbor_list(clusterid);
 		return 0;
 	}
    int g6_get_neighbour_list(
 			int clusterid, 
 			int ipipe, 
 			int maxlength, 
 			int *nblen, 
 			int nbl[])
 	{
 		assert(NB_FLAG);
 		yebisu_g6_get_neighbor_list(clusterid, ipipe, maxlength, nblen, nbl);
 		const int nnb = *nblen;
 		if(nnb < 0) return -1;
 		if(sort_mode){
 			std::sort(nbl, nbl+nnb);
 		}
 		return 0;
 	}
    void g6_set_neighbour_list_sort_mode(int mode){
 		sort_mode = mode;
 	}
    int g6_get_neighbour_list_sort_mode(void){
 		return sort_mode;
 	}
    int g6_npipes(void){
 		return yebisu_g6_get_nimax();
 	}
    int g6_getnjmax(int clusterid){
 		return yebisu_g6_get_njmax();
 	}
 }
--- a/grape6.h
+++ b/grape6.h
@ -0,0 +1,90 @@
 #ifndef G6UTIL_H
 #define G6UTIL_H
 // #include "typedef.h"
 /* constant definitions */
 #if !defined(__LANGUAGE_FORTRAN__) && !defined(_LANGUAGE_FORTRAN)
 #if defined(__cplusplus)
 extern "C"
 {
 #endif
    /* C interface */
    /*
     * standard functions.
     * the number of the cards is hidden to the user.
     */
    void g6_open_all(void);
    void g6_close_all(void);
    int g6_set_j_particle_all(int address, int index, double tj, double dtj, double mass,
                              double a2by18[3], double a1by6[3], double aby2[3], double v[3], double x[3]);
    int g6_set_j_particle_mxonly_all(int address, int index, double mass, double x[3]);
    void g6_set_ti_all(double ti);
    void g6calc_firsthalf_all(int nj, int ni, int index[], double xi[][3], double vi[][3], 
                              double fold[][3], double jold[][3], double phiold[], double eps2, double h2[]);
    void g6calc_firsthalf0_all(int nj, int ni, int index[], double xi[][3], double vi[][3], 
                               double fold[][3], double jold[][3], double phiold[], double *eps2, double h2[], int mode);
    int g6calc_lasthalf_all(int nj, int ni, int index[], double xi[][3], double vi[][3], 
                            double eps2, double h2[], double acc[][3], double jerk[][3], double pot[]);
    int g6calc_lasthalf0_all(int nj, int ni, int index[], double xi[][3], double vi[][3], 
                             double *eps2, double h2[], double acc[][3], double jerk[][3], double pot[], int mode);
    int g6calc_lasthalf2_all(int nj, int ni, int index[], double xi[][3], double vi[][3],
                             double eps2, double h2[], double acc[][3], double jerk[][3], double pot[], int nnbindex[]);
    int g6_read_neighbour_list_all(void);
    int g6_get_neighbour_list_all(int ipipe, int maxlength, int *nblen, int nbl[]);
    void g6_set_nip_all(int nip);
    void g6_set_njp_all(int njp);
    void g6_set_i_particle_scales_from_real_value_all(int address, double acc[3], double jerk[3], double phi,
                                                      double jfactor, double ffactor);
    void g6_set_i_particle_all(int address, int index, double x[3], double v[3], double eps2, double h2);
    int g6_get_force_all(double acc[][3], double jerk[][3], double phi[], int flag[]);
    int g6_get_force_etc_all(double acc[][3], double jerk[][3], double phi[], int nnbindex[], int flag[]);
    void g6_get_predicted_j_particles_all(int nj, double (*x)[3], double (*v)[3]);
    int g6_getnjmax_all(void);
    /*
     * primitive functions to control multiple cards individually.
     * the user needs to specify card's device id explicitly.
     */
    void g6_open(int clusterid);
    void g6_close(int clusterid);
    void g6_set_tunit(int newtunit);
    void g6_set_xunit(int newxunit);
    int g6_set_j_particle(int clusterid, int address, int index, double tj, double dtj, double mass,
                          double a2by18[3], double a1by6[3], double aby2[3], double v[3], double x[3]);
    int g6_set_j_particle_mxonly(int  clusterid, int address, int index, double mass, double x[3]);
    void g6_set_ti(int clusterid, double ti);
    void g6calc_firsthalf(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3], 
                          double fold[][3], double jold[][3], double phiold[], double eps2, double h2[]);
    void g6calc_firsthalf0(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3], 
                           double fold[][3], double jold[][3], double phiold[], double *eps2, double h2[], int mode);
    int g6calc_lasthalf(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3], 
                        double eps2, double h2[], double acc[][3], double jerk[][3], double pot[]);
    int g6calc_lasthalf0(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3], 
                         double *eps2, double h2[], double acc[][3], double jerk[][3], double pot[], int mode);
    int g6calc_lasthalf2(int clusterid, int nj, int ni, int index[], double xi[][3], double vi[][3],
                         double eps2, double h2[], double acc[][3], double jerk[][3], double pot[], int nnbindex[]);
    int g6_read_neighbour_list(int clusterid);
    int g6_get_neighbour_list(int clusterid, int ipipe, int maxlength, int *nblen, int nbl[]);
    void g6_set_neighbour_list_sort_mode(int mode);
    int g6_get_neighbour_list_sort_mode(void);
    int g6_npipes(void);
    void g6_set_nip(int clusterid, int nip);
    void g6_set_njp(int clusterid, int njp);
    void g6_set_i_particle_scales_from_real_value(int clusterid, int address, double acc[3], double jerk[3], double phi,
                                                  double jfactor, double ffactor);
    void g6_set_i_particle(int clusterid, int address, int index, double x[3], double v[3], double eps2, double h2);
    int g6_get_force(int clusterid, double acc[][3], double jerk[][3], double phi[], int flag[]);
    int g6_get_force_etc(int clusterid, double acc[][3], double jerk[][3], double phi[], int nnbindex[], int flag[]);
    void g6_get_predicted_j_particles(int clusterid, int nj, double x[][3], double v[][3]);
    int g6_getnjmax(int clusterid);
 #if defined(__cplusplus)
 }
 #endif
 #endif /* LANGUAGE_FORTRAN */
 #endif /* G6UTIL_H */
--- a/particle.h
+++ b/particle.h
@ -0,0 +1,343 @@
 //#define EPS_RED
 //#define EPS_MUL   0.0001f
 static inline __host__ 
 float2 float2_split(const double x)
 {
 	const float fx = float(x);
 	const float fy = float(x - double(fx));
 	return make_float2(fx, fy);
 }
 static inline __host__ 
 double float2_todouble(const float2 f)
 {
 	return double(f.x) + double(f.y);
 }
 static inline __device__ 
 float2 float2_accum(const float2 acc, const float x)
 {
 	const float ax = acc.x + x;
 	const float ay = acc.y - ((ax - acc.x) - x);
 	return make_float2(ax, ay);
 }
 static inline __device__
 float float2_diff(const float2 xj, const float2 xi){
 	return (xj.x - xi.x) + (xj.y - xi.y);
 }
 struct Iparticle{
 	float2 pos[3]; // 6
 	float  vel[3]; // 9
 	float  eps2;   // 10
 	float  h2;     // 11
 	int    id;     // 12
 	__host__ void read(
 			const double h_pos[],
 			const double h_vel[],
 			const double h_eps2,
 			const double h_h2,
 			const int    h_id)
 	{
 		for(int k=0; k<3; k++){
 			pos[k] = float2_split(h_pos[k]);
 			vel[k] = float(h_vel[k]);
 		}
 		eps2 = float(h_eps2);
 		h2   = float(h_h2);
 		id   = h_id;
 	}
 };
 struct Jparticle{
 	float2 pos [3]; // 6
 	float  vel [3]; // 9
 	float  acc2[3]; // 12
 	float  jrk6[3]; // 15
 	float  mass;    // 16
 	float2 tj;      // 18
 	int    id;      // 19
 	int    addr;    // 20
 	__host__ void read(
 			const double h_pos[],
 			const double h_vel[],
 			const double h_acc2[],
 			const double h_jrk6[],
 			const double h_mass,
 			const double h_tj,
 			const int    h_id,
 			const int    h_addr)
 	{
 		for(int k=0; k<3; k++){
 			pos [k] = float2_split(h_pos[k]);
 			vel [k] = float(h_vel [k]);
 			acc2[k] = float(h_acc2[k]);
 			jrk6[k] = float(h_jrk6[k]);
 		}
 		mass = float(h_mass);
 		tj   = float2_split(h_tj);
 		id   = h_id;
 		addr = h_addr;
 		assert(addr < NBODY_MAX);
 	}
 };
 struct Jppred{
 	float2 pos[3]; // 6
 	float  vel[3]; // 9
 	float  mass;   // 10
 	int    id;     // 11
 	int    pad;    // 12
 	enum{
 		SIZE_F4 = 3,
 	};
 	__device__ void predict(
 			const Jparticle &jp,
 			const float2     ti)
 	{
 		const float dt = float2_diff(ti, jp.tj);
 #pragma unroll
 		for(int k=0; k<3; k++){
 			pos[k].x = jp.pos[k].x;
 			pos[k].y = jp.pos[k].y + dt*(jp.vel[k] + dt*(jp.acc2[k] + dt*jp.jrk6[k]));
 			vel[k] = jp.vel[k] + (2.f*dt)*(jp.acc2[k] + (1.5f*dt)*(jp.jrk6[k]));
 		}
 		mass = jp.mass;
 		id   = jp.id  ;
 	}
 };
 struct Interaction{
 	float3 acc;
 	float3 jrk;
 	float  pot;
 	__device__ Interaction(
 		const Iparticle &ip, 
 		const Jppred    &jp){
 		const float dx = float2_diff(jp.pos[0], ip.pos[0]);
 		const float dy = float2_diff(jp.pos[1], ip.pos[1]);
 		const float dz = float2_diff(jp.pos[2], ip.pos[2]);
 		const float dvx = jp.vel[0] - ip.vel[0];
 		const float dvy = jp.vel[1] - ip.vel[1];
 		const float dvz = jp.vel[2] - ip.vel[2];
 #ifdef EPS_RED
    float r2, tmp_eps2;
    tmp_eps2 = ip.eps2;		// default value ----> eps = 1e-5 !!!
    // larger ----> 10 x eps if mass > 1e-6 (i.e. high mass part.)
    if( (jp.id < 99998) || (ip.id < 99998) ) tmp_eps2 *= 100.0f;
    // if i or j is a BH's ----> 1e-2 * eps 
    if( (ip.id == 999998) || (jp.id == 999998) || (ip.id == 999999) || (jp.id == 999999) )
      {
      r2 = EPS_MUL*tmp_eps2 + dx*dx + dy*dy + dz*dz;
      }
    else
      {
      r2 = tmp_eps2 + dx*dx + dy*dy + dz*dz;
      }
 #else
    const float r2 = ip.eps2 + dx*dx + dy*dy + dz*dz;
 #endif
 /*
 #ifdef EPS_RED
    float r2;
    // if i or j is a BH's
    if( (ip.id == 0) || (jp.id == 0) || (ip.id == 1) || (jp.id == 1) )
      {
      r2 = EPS_MUL*ip.eps2 + dx*dx + dy*dy + dz*dz;
      }
    else
      {
      r2 = ip.eps2 + dx*dx + dy*dy + dz*dz;
      }
 #else
    const float r2 = ip.eps2 + dx*dx + dy*dy + dz*dz;
 #endif
 */
 //		const float r2 = ip.eps2 + dx*dx + dy*dy + dz*dz;
 		const float rv = dx*dvx + dy*dvy + dz*dvz;
 		const float rinv1 = (jp.id == ip.id) ? 0.0f
 		                                     : rsqrtf(r2);
 		const float rinv2 = rinv1 * rinv1;
 		const float mrinv1 = jp.mass * rinv1;
 		const float mrinv3 = mrinv1 * rinv2;
 		const float alpha  = -3.f * rv * rinv2;
 		acc.x   = mrinv3 * dx;
 		acc.y   = mrinv3 * dy;
 		acc.z   = mrinv3 * dz;
 		jrk.x   = mrinv3 * (dvx + alpha * dx);
 		jrk.y   = mrinv3 * (dvy + alpha * dy);
 		jrk.z   = mrinv3 * (dvz + alpha * dz);
 		pot     = mrinv1; // use positive definition here
 	}
 	__device__ void set_neib(int &dst) const{
 		// do nothing
 	}
 };
 struct Interaction_NB{
 	float3 acc;
 	float3 jrk;
 	float  pot;
 	float  nb_rinv;
 	int    jid;
 	bool   is_neib;
 	__device__ Interaction_NB(
 			const Iparticle &ip, 
 			const Jppred    &jp)
 	{
 		const float dx = float2_diff(jp.pos[0], ip.pos[0]);
 		const float dy = float2_diff(jp.pos[1], ip.pos[1]);
 		const float dz = float2_diff(jp.pos[2], ip.pos[2]);
 		const float dvx = jp.vel[0] - ip.vel[0];
 		const float dvy = jp.vel[1] - ip.vel[1];
 		const float dvz = jp.vel[2] - ip.vel[2];
 //                if( (jp.id) > 1 && (jp.id < 200000) ) ip.eps2 *= 100;
 		const float r2 = ip.eps2 + dx*dx + dy*dy + dz*dz;
 		const float rv = dx*dvx + dy*dvy + dz*dvz;
 		const float rinv1 = (jp.id == ip.id) ? 0.0f
 		                                     : rsqrtf(r2);
 		const float rinv2 = rinv1 * rinv1;
 		const float mrinv1 = jp.mass * rinv1;
 		const float mrinv3 = mrinv1 * rinv2;
 		const float alpha  = -3.f * rv * rinv2;
 		acc.x   = mrinv3 * dx;
 		acc.y   = mrinv3 * dy;
 		acc.z   = mrinv3 * dz;
 		jrk.x   = mrinv3 * (dvx + alpha * dx);
 		jrk.y   = mrinv3 * (dvy + alpha * dy);
 		jrk.z   = mrinv3 * (dvz + alpha * dz);
 		pot     = mrinv1; // use positive definition here
 		nb_rinv = rinv1;
 		jid     = jp.id;
 		is_neib = (r2 < ip.h2) && (jp.id != ip.id);
 	}
 	__device__ void set_neib(int &dst) const{
 		if(is_neib) dst = jid;
 	}
 };
 struct Force{
 	float2 acc[3];   // 6
 	float  jrk[3];   // 9
 	float2 pot;      // 11
 	int    nnb_id;   // 12 ID of nearest neighbor
 	float  nnb_rinv; // 13 rinv of nearest neighbor
 	int    num_neib; // 14
 	__host__ void write(
 			double  h_acc[],
 			double  h_jrk[],
 			double &h_pot,
 			int    &h_nnb_id,
 			int    &h_num_neib) const
 	{
 		for(int k=0; k<3; k++){
 			h_acc[k] = float2_todouble(acc[k]);
 			h_jrk[k] = double(jrk[k]);
 		}
 		h_pot      = - float2_todouble(pot);
 		h_nnb_id   = nnb_id;
 		h_num_neib = num_neib;
 	}
 	__device__ void clear()
 	{
 #pragma unroll
 		for(int k=0; k<3; k++){
 			acc[k] = make_float2(0.0f, 0.0f);
 			jrk[k] = 0.0f;
 		}
 		pot      = make_float2(0.0f, 0.0f);
 		nnb_id   = -1;
 		nnb_rinv = 0.0f;
 		num_neib = 0;
 	}
 	__device__ void check_overflow(){
 		if(num_neib > NB_MAX) num_neib = -1;
 	}
 	// for the redction kernel
 	__device__ void operator+=(
 			const Force &fo)
 	{
 #pragma unroll
 		for(int k=0; k<3; k++){
 			acc[k] = float2_accum(acc[k], fo.acc[k].x);
 			acc[k] = float2_accum(acc[k], fo.acc[k].y);
 			jrk[k] += fo.jrk[k];
 		}
 		pot = float2_accum(pot, fo.pot.x);
 		pot = float2_accum(pot, fo.pot.y);
 		if(num_neib>=0 && fo.num_neib>=0){
 			num_neib += fo.num_neib;
 		}else{ // overflow
 			num_neib = -1;
 		}
 		// nearest neighbor
 		if(nnb_rinv < fo.nnb_rinv){
 			nnb_id   = fo.nnb_id;
 			nnb_rinv = fo.nnb_rinv;
 		}
 	}
 	// for the gravity kernel
 	__device__ void operator+=(
 			const Interaction &fo)
 	{
 		acc[0] = float2_accum(acc[0], fo.acc.x);
 		acc[1] = float2_accum(acc[1], fo.acc.y);
 		acc[2] = float2_accum(acc[2], fo.acc.z);
 		pot    = float2_accum(pot, fo.pot);
 		jrk[0] += fo.jrk.x;
 		jrk[1] += fo.jrk.y;
 		jrk[2] += fo.jrk.z;
 	}
 	__device__ void operator+=(
 			const Interaction_NB &fo)
 	{
 		acc[0] = float2_accum(acc[0], fo.acc.x);
 		acc[1] = float2_accum(acc[1], fo.acc.y);
 		acc[2] = float2_accum(acc[2], fo.acc.z);
 		jrk[0] += fo.jrk.x;
 		jrk[1] += fo.jrk.y;
 		jrk[2] += fo.jrk.z;
 		pot   = float2_accum(pot, fo.pot);
 		// neighbor list counter
 		if(fo.is_neib) num_neib++;
 		// nearest neighbor
 		if(nnb_rinv < fo.nb_rinv){
 			nnb_id   = fo.jid;
 			nnb_rinv = fo.nb_rinv;
 		}
 	}
 };
--- a/yebisu_g6.cu
+++ b/yebisu_g6.cu
@ -0,0 +1,762 @@
 //#include <cutil.h>
 #include <omp.h>
 #include "cuda_pointer.h"
 enum{
 	MAX_GPU    = 4,
 	MAX_CPU    = 4,
 	NBODY_MAX  = (1048576),	// 256KB
 	NB_MAX     = 256,	// per block
 	MAX_NB_BUF = (1048576),	// 256KB
 };
 #include "gpu.h"
 #include "particle.h"
 #define _out_
 __global__ void kernel_jp_scatter(
 		const int nj,
 		const Jparticle jpsrc[],
 		_out_ Jparticle jpdst[])
 {
 	const int tid = threadIdx.x + blockDim.x * blockIdx.x;
 	if(tid < nj){
 		const Jparticle jp = jpsrc[tid];
 		jpdst[jp.addr] = jp;
 	}
 }
 __global__ void kernel_predict(
 		const int       nj,
 		const float2    ti,
 		const Jparticle jptcl[],
 		_out_ Jppred    jpred[])
 {
 #if 0
 	const int tid = threadIdx.x + blockDim.x * blockIdx.x;
 	if(tid < nj){
 		jpred[tid].predict(jptcl[tid], ti);
 	}
 #else
 	const int tid = threadIdx.x;
 	const int off = blockDim.x * blockIdx.x;
 	const int nth = blockDim.x;
 	__shared__ float4 sbuf[NTHREADS*5];
 	Jparticle *sptcl = (Jparticle *)sbuf;
 	Jppred    *spred = (Jppred    *)sbuf;
 	{   // LOAD
 		float4 *src = (float4 *)(jptcl + off);
 		float4 *dst = (float4 *)(sptcl);
 #pragma unroll
 		for(int k=0; k<5; k++, src+=nth, dst+=nth){
 			dst[tid] = src[tid];
 		}
 	}
 	// Predict
 	__syncthreads();
 	Jppred pp;
 	pp.predict(sptcl[tid], ti);
 	__syncthreads();
 	spred[tid] = pp;
 	__syncthreads();
 	{   // STORE
 		float4 *src = (float4 *)(spred);
 		float4 *dst = (float4 *)(jpred + off);
 #pragma unroll
 		for(int k=0; k<3; k++, src+=nth, dst+=nth){
 			dst[tid] = src[tid];
 		}
 	}
 #endif
 }
 #define INTERACTION Interaction_NB
 __global__ void kernel_gravity(
 		const int ni,
 		const int nj,
 		const Iparticle ipbuf[],
 		const Jppred    jpbuf[],
 		_out_ Force     fodev[][NJBLOCKS],
 		_out_ int       nbbuf[][NJBLOCKS][NB_MAX],
 		const bool      with_neib)
 {
 	int ibid = blockIdx.x;
 	int jbid = blockIdx.y;
 	int tid = threadIdx.x;
 	int iaddr = tid + blockDim.x * ibid;
 	int jstart = (nj * (jbid  )) / NJBLOCKS;
 	int jend   = (nj * (jbid+1)) / NJBLOCKS;
 	int *nbdst = nbbuf[iaddr][jbid];
 	__shared__ Jppred jpshare[NJPSHRE]; // 32
 	const Iparticle ip = ipbuf[iaddr];
 	Force fo;
 	fo.clear();
 	if(with_neib){
 		for(int j=jstart; j<jend; j+=NJPSHRE){
 			const int jsize = NJPSHRE * Jppred::SIZE_F4; // 96
 			__syncthreads();
 			if(tid < jsize){ // 96 of 128
 				float4 *src = (float4 *)(jpbuf + j);
 				float4 *dst = (float4 *)(jpshare  );
 				dst[tid] = src[tid];
 			}
 			if(tid+32 < jsize){ // for the case of 64 threads
 				float4 *src = (float4 *)(jpbuf + j);
 				float4 *dst = (float4 *)(jpshare  );
 				dst[tid+32] = src[tid+32];
 			}
 			__syncthreads();
 			if(jend-j < NJPSHRE){
 #pragma unroll 4
 				for(int jj=0; jj<jend-j; jj++){
 					const Jppred jp = jpshare[jj];
 					const Interaction_NB inter(ip, jp);
 					inter.set_neib(nbdst[fo.num_neib % NB_MAX]);
 					fo += inter;
 				}
 			}else{
 #pragma unroll 32
 				for(int jj=0; jj<NJPSHRE; jj++){
 					const Jppred jp = jpshare[jj];
 					const Interaction_NB inter(ip, jp);
 					inter.set_neib(nbdst[fo.num_neib % NB_MAX]);
 					fo += inter;
 				}
 			}
 		}
 	}else{ // no neib
 		for(int j=jstart; j<jend; j+=NJPSHRE){
 			const int jsize = NJPSHRE * Jppred::SIZE_F4; // 96
 			__syncthreads();
 			if(tid < jsize){ // 96 of 128
 				float4 *src = (float4 *)(jpbuf + j);
 				float4 *dst = (float4 *)(jpshare  );
 				dst[tid] = src[tid];
 			}
 			if(tid+32 < jsize){ // for the case of 64 threads
 				float4 *src = (float4 *)(jpbuf + j);
 				float4 *dst = (float4 *)(jpshare  );
 				dst[tid+32] = src[tid+32];
 			}
 			__syncthreads();
 			if(jend-j < NJPSHRE){
 #pragma unroll 4
 				for(int jj=0; jj<jend-j; jj++){
 					const Jppred jp = jpshare[jj];
 					const Interaction inter(ip, jp);
 					inter.set_neib(nbdst[fo.num_neib % NB_MAX]);
 					fo += inter;
 				}
 			}else{
 #pragma unroll 32
 				for(int jj=0; jj<NJPSHRE; jj++){
 					const Jppred jp = jpshare[jj];
 					const Interaction inter(ip, jp);
 					inter.set_neib(nbdst[fo.num_neib % NB_MAX]);
 					fo += inter;
 				}
 			}
 		}
 	}
 	if(iaddr < ni){
 		fodev[iaddr][jbid] = fo;
 	}
 }
 __global__ void kernel_reduce(
 		const int ni,
 		const Force fodev[][NJBLOCKS],
 		_out_ Force fosum[]){
 	const int xid = threadIdx.x;
 	const int yid = threadIdx.y;
 	const int bid = blockIdx.x;
 	const int iaddr = yid + blockDim.y * bid;
 	__shared__ Force fshare[NYREDUCE][NXREDUCE];
 	if(xid < NJBLOCKS){
 		fshare[yid][xid] = fodev[iaddr][xid];
 	}else{
 		fshare[yid][xid].clear();
 	}
 	Force *fs = fshare[yid];
 	if(32 == NXREDUCE){
 		if(xid < 16) fs[xid] += fs[xid + 16];
 	}
 	if(xid < 8) fs[xid] += fs[xid + 8];
 	if(xid < 4) fs[xid] += fs[xid + 4];
 	if(xid < 2) fs[xid] += fs[xid + 2];
 	if(xid < 1) fs[xid] += fs[xid + 1];
 	if(iaddr < ni && 0 == xid){
 		fosum[iaddr] = fs[0];
 	}
 }
 __global__ void kernel_gather_nb(
 		const int   ni,
 		const Force fodev[][NJBLOCKS],
 		const int2  nbcnt[],
 		const int   nbbuf[][NJBLOCKS][NB_MAX],
 		_out_ int   nblst[])
 {
 	const int xid = threadIdx.x;
 	const int yid = threadIdx.y;
 	const int bid = blockIdx.x;
 	const int iaddr = yid + blockDim.y * bid;
 	if(iaddr >= ni) return;
 	if(nbcnt[iaddr].x < 0) return; // overflow
 	const int mynnb = (xid < NJBLOCKS) ? fodev[iaddr][xid].num_neib
 	                                   : 0;
 	// now performe prefix sum
 	__shared__ int ishare[NYREDUCE][NXREDUCE];
 	ishare[yid][xid] = mynnb;
 	int *ish = ishare[yid];
 	if(xid>=1)  ish[xid] += ish[xid-1];
 	if(xid>=2)  ish[xid] += ish[xid-2];
 	if(xid>=4)  ish[xid] += ish[xid-4];
 	if(xid>=8)  ish[xid] += ish[xid-8];
 	if(32 == NXREDUCE){
 		if(xid>=16)  ish[xid] += ish[xid-16];
 	}
 	const int off = (xid == 0) ? 0 
 	                           : ish[xid-1];
 	int *nbdst = nblst + nbcnt[iaddr].y + off;
 	if(xid < NJBLOCKS){
 		for(int k=0; k<mynnb; k++){
 			const int nbid = nbbuf[iaddr][xid][k];
 			nbdst[k] = nbid;
 		}
 	}
 }
 class Resource{
 private:
 	bool   is_open;
 	bool   predicted;
 	bool   grav_called;
 	bool   jp_flushed;
 	int    gpid;
 	int    njp_in_que;
 	int    ni_save;
 	float2 ti;
 	cudaPointer<Iparticle>              ipbuf;
 	cudaPointer<Jparticle>              jpbuf;
 	cudaPointer<Jparticle>              jpque;
 	cudaPointer<Jppred>                 jpred;
 	cudaPointer <Force[NJBLOCKS]>       fodev;
 	cudaPointer <Force>                 fosum;
 	cudaPointer <int[NJBLOCKS][NB_MAX]> nbbuf;
 	cudaPointer <int>                   nblst;
 	cudaPointer <int2>                  nbcnt; // {num, off}
 	void allocate(){
 		ipbuf.allocate(NIMAX);
 		jpbuf.allocate(NBODY_MAX);
 		jpque.allocate(NBODY_MAX);
 		jpred.allocate(NBODY_MAX);
 		fodev.allocate(NIMAX);
 		fosum.allocate(NIMAX);
 		nbbuf.allocate(NIMAX);
 		nblst.allocate(MAX_NB_BUF);
 		nbcnt.allocate(NIMAX);
 	}
 	void free(){
 		ipbuf.free();
 		jpbuf.free();
 		jpque.free();
 		jpred.free();
 		fodev.free();
 		fosum.free();
 		nbbuf.free();
 		nblst.free();
 		nbcnt.free();
 	}
 public:
 	void set_gpid(){
 		int dev;
 		cudaGetDevice(&dev);
 		gpid = dev;
 	}
 	void set_gpid(const int id){
 		gpid = id;
 		int dev;
 		cudaGetDevice(&dev);
 		assert(dev == gpid);
 	}
 	void open(){
 		assert(!is_open);
 		allocate();
 		is_open     = true;
 		njp_in_que  = 0;
 		predicted   = false;
 		grav_called = false;
 		jp_flushed  = false;
 	}
 	void close(){
 		assert(is_open);
 		free();
 		is_open = false;
 	}
 	void set_ip(
 			const int    ni,
 			const double pos[][3],
 			const double vel[][3],
 			const double eps2[],
 			const double h2  [],
 			const int    id  [])
 	{
 		assert(is_open);
 		assert(ni <= NIMAX);
 		for(int i=0; i<ni; i++){
 			ipbuf[i].read(pos[i], vel[i], eps2[i], h2[i], id[i]);
 		}
 		ipbuf.htod(ni);
 		ni_save = ni;
 	}
 	void push_jp(
 			const double pos [3],
 			const double vel [3],
 			const double acc2[3],
 			const double jrk6[6],
 			const double mass,
 			const double tj,
 			const int    id,
 			const int    addr)
 	{
 		assert(is_open);
 		assert(addr < NBODY_MAX);
 		jpque[njp_in_que].read(pos, vel, acc2, jrk6, mass, tj, id, addr);
 		njp_in_que++;
 		jp_flushed = false;
 	}
 	void transter_jp(){
 		assert(is_open);
 		const int njq = njp_in_que;
 		jpque.htod(njq);
 		njp_in_que = 0;
 		const int Blocks = 1 + (njq-1)/NTHSCAT;
 		kernel_jp_scatter <<< Blocks, NTHSCAT >>>
 			(njq, jpque, jpbuf);
 		jp_flushed = true;
 		predicted  = false;
 	}
 	void set_ti(const double dbl_ti){
 		assert(is_open);
 		ti = float2_split(dbl_ti);
 		predicted = false;
 	}
 	void predict_all(const int nj){
 		assert(is_open);
 		const int Blocks = 1 + (nj-1)/NTHREADS;
 		kernel_predict <<< Blocks, NTHREADS >>>
 			(nj, ti, jpbuf, jpred);
 		predicted = true;
 	}
 	void launch_gravity(
 			const int  ni,
 			const int  nj,
 			const bool with_neib)
 	{
 		assert(is_open);
 		assert(ni == ni_save);
 		assert(ni <= NIMAX);
 		assert(nj < NBODY_MAX);
 		if(!jp_flushed) transter_jp();
 		if(!predicted ) predict_all(nj);
 		if(ni <= 64){
 			dim3 grid   ( 1, NJBLOCKS, 1);
 			dim3 threads(64,        1, 1);
 			kernel_gravity <<< grid, threads >>>
 				(ni, nj, ipbuf, jpred, fodev, nbbuf, with_neib);
 		}else{
 			const int niblocks = 1 + (ni-1) / NTHREADS;
 			dim3 grid   (niblocks, NJBLOCKS, 1);
 			dim3 threads(NTHREADS,        1, 1);
 			kernel_gravity <<< grid, threads >>>
 				(ni, nj, ipbuf, jpred, fodev, nbbuf, with_neib);
 		}
 		grav_called = true;
 	}
 	void get_force(
 			const int    ni,
 			_out_ double acc   [][3],
 			_out_ double jrk   [][3],
 			_out_ double pot   [],
 			_out_ int    nnb_id[])
 	{
 		assert(is_open);
 		assert(grav_called);
 		assert(ni == ni_save);
 		assert(ni <= NIMAX);
 		const int ni8 = 1 + (ni-1) / NYREDUCE;
 		dim3 grid   (ni8, 1, 1);
 		dim3 threads(NXREDUCE, NYREDUCE, 1);
 		kernel_reduce <<< grid, threads >>>
 			(ni, fodev, fosum);
 		fosum.dtoh(ni);
 		grav_called = false;
 		for(int i=0; i<ni; i++){
 			fosum[i].write(acc[i], jrk[i], pot[i], nnb_id[i], nbcnt[i].x);
 		}
 	}
 	void receive_neighbor_list(){
 		assert(is_open);
 		const int ni = ni_save;
 		int nbsum = 0;
 		for(int i=0; i<ni; i++){
 			nbcnt[i].y = nbsum;
 			if(nbcnt[i].x >= 0) nbsum += nbcnt[i].x;
 		}
 		assert(nbsum <= MAX_NB_BUF);
 		nbcnt.htod(ni);
 		const int ni8 = 1 + (ni-1) / NYREDUCE;
 		dim3 grid   (ni8, 1, 1);
 		dim3 threads(NXREDUCE, NYREDUCE, 1);
 		kernel_gather_nb <<< grid, threads >>>
 			(ni, fodev, nbcnt, nbbuf, nblst);
 		nblst.dtoh(nbsum);
 	}
 	void get_neighbor_list(
 			const int ipipe,
 			const int maxlen,
 			_out_ int *num_neib,
 			_out_ int list[])
 	{
 		assert(is_open);
 		assert(ipipe < ni_save);
 		const int nnb = nbcnt[ipipe].x;
 		const int off = nbcnt[ipipe].y;
 		const int *src = &nblst[off];
 		if(nnb > 0 && maxlen >= nnb){
 			for(int k=0; k<nnb; k++){
 				list[k] = src[k];
 			}
 			*num_neib = nnb;
 		}else{
 			*num_neib = -1;
 		}
 	}
 	void DEBUG_read_pred(
 			const int    nj,
 			const int    addr,
 			_out_ double pos [3],
 			_out_ double vel [3],
 			_out_ double mass[1],
 			_out_ int    id  [1])
 	{
 		jpred.dtoh(nj);
 		const Jppred &p = jpred[addr];
 		for(int k=0; k<3; k++){
 			pos[k] = p.pos[k].x + p.pos[k].y;
 			vel[k] = p.vel[k];
 		}
 		mass[0] = p.mass;
 		id  [0] = p.id;
 	}
 };
 static Resource resource[MAX_GPU];
 static int numGPU, numCPU;
 static bool initialized = false;
 static void lib_initialize(const int gpid){
 	if(initialized) return;
 	initialized = true;
 	assert(NXREDUCE >= NJBLOCKS);
 	assert(NXREDUCE <= 32);
 	assert(sizeof(Jppred) % sizeof(float4) == 0);
 	assert(sizeof(Jppred) / sizeof(float4) == Jppred::SIZE_F4);
 	assert(NJPSHRE * Jppred::SIZE_F4 <= NTHREADS);
 //	int devid[MAX_GPU];
 //	cudaGetDeviceCount(&numGPU);
 //	assert(numGPU <= MAX_GPU);
 /*
 	char *gpu_list = getenv("GPU_LIST");
 	if(gpu_list)
 	  {
 // get GPU list from environment variable
 	  numGPU = 0;
 	  char *p = strtok(gpu_list, " ");
 	  while(p)
 	    {
 	    devid[numGPU++] = atoi(p);
 	    p = strtok(NULL, " ");
 	    assert(numGPU <= MAX_GPU);
 	    }
 	  }
 	else
 	  {
 // use all GPUs
 //	  for(int i=0; i<numGPU; i++)  devid[i] = i;
 // using the default GPU
 	  numGPU = 1;
 	  numCPU = 1;
 	  devid[0] = -1;
 	  }
 */
 // using the default GPU
 //	  numGPU = 1;
 //	  numCPU = 1;
 //	  devid[0] = -1;
 // using the gpid GPU
 	  numGPU = 1;
 	  numCPU = 1;
 //	  devid[0] = gpid;
 /*
 #pragma omp parallel
 	{
 	int tid = omp_get_thread_num();
 	if(tid == 0) numCPU = omp_get_num_threads();
        numCPU = 1;
 	}
 */
 //	assert(numCPU <= MAX_CPU);
 //	assert(numGPU <= numCPU);
 //#pragma omp parallel
 //	{
 /*
 		int tid = omp_get_thread_num();
 		tid = 0;
 		if(tid < numGPU)
 		  {
  	          fprintf(stderr, "tid %d, numGPU %d, devid[tid] %d \n", tid, numGPU, devid[tid]);
 		  if(devid[tid] >= 0)
 		    {
 		    cudaSetDevice(devid[tid]);
 		    resource[tid].set_gpid(devid[tid]);
 		    }
 		  else
 		    {
 		    fprintf(stderr, "Skipping cudaSetDevice(), using the default GPU \n");
 		    resource[tid].set_gpid();
 		    }
 		  }
 */
 //	}
 	cudaGetDeviceCount(&numGPU);
 	assert(numGPU <= MAX_GPU);
        cudaSetDevice(gpid);
        resource[0].set_gpid(gpid);
 	fprintf(stderr, "***********************\n");
 	fprintf(stderr, "Initializing Yebisu/G6 library\n");
 	fprintf(stderr, "#CPU %d, #GPU %d, device: %d\n", numCPU, numGPU, gpid);
 //	fprintf(stderr, "device: %d\n" gpid);
 //	fprintf(stderr, "device: ");
 //	for(int i=0; i<numGPU; i++) fprintf(stderr, " %d", devid[i]);
 //	fprintf(stderr, "\n");
 	fprintf(stderr, "***********************\n");
 #if 1
 	cudaFuncSetCacheConfig(kernel_jp_scatter, cudaFuncCachePreferL1);
 	cudaFuncSetCacheConfig(kernel_predict,    cudaFuncCachePreferShared);
 	cudaFuncSetCacheConfig(kernel_gravity,    cudaFuncCachePreferL1);
 	cudaFuncSetCacheConfig(kernel_reduce,     cudaFuncCachePreferShared);
 	cudaFuncSetCacheConfig(kernel_gather_nb,  cudaFuncCachePreferL1);
 #endif
 }
 #include "yebisu_g6.h"
 extern "C"{
 void yebisu_g6_open (const int gpid)
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].open();
  }
 void yebisu_g6_close(const int gpid)
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].close();
  }
 void yebisu_g6_set_ip(
  const int    gpid,
  const int    ni,
  const double pos[][3],
  const double vel[][3],
  const double eps2[],
  const double h2  [],
  const int    id  [])
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].set_ip(ni, pos, vel, eps2, h2, id);
  }
 void yebisu_g6_push_jp(
  const int    gpid,
  const double pos [3],
  const double vel [3],
  const double acc2[3],
  const double jrk6[6],
  const double mass,
  const double tj,
  const int    id,
  const int    addr)
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].push_jp( pos, vel, acc2, jrk6, mass, tj, id, addr);
  }
 void yebisu_g6_transfer_jp(const int gpid)
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].transter_jp();
  }
 void yebisu_g6_set_ti(
  const int    gpid,
  const double ti)
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].set_ti(ti);
  }
 void yebisu_g6_predict_all(
  const int gpid,
  const int nj)
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].predict_all(nj);
  }
 void yebisu_g6_launch_gravity(
  const int gpid,
  const int ni,
  const int nj,
  const int with_neib)
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].launch_gravity(ni, nj, bool(with_neib));
  }
 void yebisu_g6_get_force(
  const int    gpid,
  const int    ni,
  _out_ double acc   [][3],
  _out_ double jrk   [][3],
  _out_ double pot   [],
  _out_ int    nnb_id[])
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].get_force(ni, acc, jrk, pot, nnb_id);
  }
 void yebisu_g6_receive_neighbor_list(const int gpid)
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].receive_neighbor_list();
  }
 void yebisu_g6_get_neighbor_list(
  const int gpid,
  const int ipipe,
  const int maxlen,
  _out_ int *num_neib,
  _out_ int list[])
  {
 //  lib_initialize();
  lib_initialize(gpid);
  resource[gpid].get_neighbor_list(ipipe, maxlen, num_neib, list);
  }
 void yebisu_g6_DEBUG_read_pred(
  const int    gpid,
  const int    nj,
  const int    addr,
  _out_ double pos [3],
  _out_ double vel [3],
  _out_ double mass[1],
  _out_ int    id  [1])
  {
  resource[gpid].DEBUG_read_pred(nj, addr, pos, vel, mass, id);
  }
 int yebisu_g6_get_nimax()
  {
  return NIMAX;
  }
 int yebisu_g6_get_njmax()
  {
  return NBODY_MAX;
  }
 }
--- a/yebisu_g6.h
+++ b/yebisu_g6.h
@ -0,0 +1,61 @@
 extern "C"
 {
 	void yebisu_g6_open (const int gpid);
 	void yebisu_g6_close(const int gpid);
 	void yebisu_g6_set_ip(
 			const int    gpid,
 			const int    ni,
 			const double pos[][3],
 			const double vel[][3],
 			const double eps2[],
 			const double h2  [],
 			const int    id  []);
 	void yebisu_g6_push_jp(
 			const int    gpid,
 			const double pos [3],
 			const double vel [3],
 			const double acc2[3],
 			const double jrk6[6],
 			const double mass,
 			const double tj,
 			const int    id,
 			const int    addr);
 	void yebisu_g6_transfer_jp(const int gpid);
 	void yebisu_g6_set_ti(
 			const int    gpid,
 			const double ti);
 	void yebisu_g6_predict_all(
 			const int gpid,
 			const int nj);
 	void yebisu_g6_launch_gravity(
 			const int gpid,
 			const int ni,
 			const int nj,
 			const int with_neib);
 	void yebisu_g6_get_force(
 			const int    gpid,
 			const int    ni,
 			      double acc   [][3],
 			      double jrk   [][3],
 			      double pot   [],
 			      int    nnb_id[]);
 	void yebisu_g6_receive_neighbor_list(const int gpid);
 	void yebisu_g6_get_neighbor_list(
 			const int gpid,
 			const int ipipe,
 			const int maxlen,
 			      int *num_neib,
 			      int list[]);
 	void yebisu_g6_DEBUG_read_pred(
 			const int    gpid,
 			const int    nj,
 			const int    addr,
 			      double pos [3],
 			      double vel [3],
 			      double mass[1],
 			      int    id  [1]);
 	int yebisu_g6_get_nimax();
 	int yebisu_g6_get_njmax();
 }