demo apps added

ShreshthSaxena · ShreshthSaxena · commit 3b22d5cab8fd · 2020-03-15T01:52:47.000+05:30
diff --git a/.DS_Store b/.DS_Store
diff --git a/webcam_demo.py b/webcam_demo.py
@@ -1,11 +1,7 @@
 import tensorflow as tf
-import numpy as np
 import cv2
 import time
 import argparse
-import math
-import random
-from ffpyplayer.player import MediaPlayer
 
 import posenet
 
@@ -14,18 +10,10 @@
 parser.add_argument('--cam_id', type=int, default=0)
 parser.add_argument('--cam_width', type=int, default=1280)
 parser.add_argument('--cam_height', type=int, default=720)
-parser.add_argument('--scale_factor', type=float, default=0.2)
+parser.add_argument('--scale_factor', type=float, default=0.7125)
 parser.add_argument('--file', type=str, default=None, help="Optionally use a video file instead of a live camera")
 args = parser.parse_args()
 
-beat_times = [ 2.39165533,  3.34367347,  3.83129252,  4.29569161,  5.24770975,
-5.7353288 ,  6.22294785,  7.17496599,  7.66258503,  8.12698413,
-9.10222222,  9.58984127, 10.05424036, 11.0062585 , 11.49387755,
-11.9814966 , 12.93351474, 13.42113379, 13.90875283, 14.86077098,
-15.34839002, 15.81278912, 16.78802721, 17.2524263 , 17.74004535,
-18.69206349, 19.17968254, 19.66730159, 20.61931973, 21.10693878,
-21.57133787, 22.54657596, 23.01097506, 23.4985941 , 24.45061224,
-24.93823129]
 
 def main():
     with tf.Session() as sess:
@@ -39,12 +27,8 @@ def main():
         cap.set(3, args.cam_width)
         cap.set(4, args.cam_height)
 
-        
+        start = time.time()
         frame_count = 0
-        intersect = False
-        c = (150,150)
-        j=0
-        hand = 'na'
         while True:
             input_image, display_image, output_scale = posenet.read_cap(
                 cap, scale_factor=args.scale_factor, output_stride=output_stride)
@@ -60,79 +44,23 @@ def main():
                 displacement_fwd_result.squeeze(axis=0),
                 displacement_bwd_result.squeeze(axis=0),
                 output_stride=output_stride,
-                max_pose_detections=1,
-                min_pose_score=0.25)
+                max_pose_detections=10,
+                min_pose_score=0.15)
 
             keypoint_coords *= output_scale
 
-            if pose_scores[0] == 0:
-                continue
-            pi = np.argmax(pose_scores)
-
             # TODO this isn't particularly fast, use GL for drawing and display someday...
             overlay_image = posenet.draw_skel_and_kp(
-                display_image, [pose_scores[pi]], keypoint_scores, keypoint_coords,
-                min_pose_score=0.25, min_part_score=0.25)
-
-            h,w = overlay_image.shape[:2]
-            circles = [(w//4,3*h//4),
-            (3*w//4,3*h//4),
-            (w//4,h//4),
-            (3*w//4,h//4),
-            (w//4,h//2),
-            (3*w//4,h//2),
-            ((w//4)-50,h//4),
-            ((3*w//4)+50,h//4),
-            ((3*w//4)+50,3*h//4),
-            ((w//4)-50,3*h//4)]
-
-            k = keypoint_coords[pi][-10:]
-            k = k.astype(int)
-            xl = (3*k[2,1] - k[0,1])//2
-            yl = (3*k[2,0] - k[0,0])//2
-            overlay_image = cv2.circle(overlay_image, (xl,yl), 70, (150,150,0), thickness =10)
-
-            xr = (3*k[3,1] - k[1,1])//2
-            yr = (3*k[3,0] - k[1,0])//2
-            overlay_image = cv2.circle(overlay_image, (xr,yr), 70, (0,150,255), thickness =10)
-
-            if not intersect:
-                dl = math.sqrt((c[0]-xl)**2 + (c[1]-yl)**2)
-                dr = math.sqrt((c[0]-xr)**2 + (c[1]-yr)**2)
-                if dl<160 or dr<160:
-                    intersect = True
-                    hand = 'left' if dl<160 else 'right'
-                    player = MediaPlayer('tt.mov')
-                    start = time.time() +0.5
-            else:
-                #print((time.time()-start))
-                if j<len(beat_times) and 0 <= (round((time.time()-start),1) - round((beat_times[j]),1)) <= 0.1:
-                    #print("yay", round((time.time()-start),1) - round((beat_times[j]),1))
-                    c = random.choice(circles)
-                    j+=1
-                    #intersect = False
-            overlay_image = cv2.circle(overlay_image, (c[0],c[1]), 90, (255,255,255), thickness =10)
+                display_image, pose_scores, keypoint_scores, keypoint_coords,
+                min_pose_score=0.15, min_part_score=0.1, bgimage = False)
             overlay_image = cv2.flip(overlay_image,1)
-            #cv2.putText(overlay_image, 'rection time : '+ str(t), (20,30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,0,0), 2, cv2.LINE_AA)
-            #cv2.putText(overlay_image, 'hand : '+ hand, (20,55), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,0,0), 2, cv2.LINE_AA)
-
-            # for c in circles:
-            #   dl = math.sqrt((c[0]-xl)**2 + (c[1]-yl)**2)
-            #   dr = math.sqrt((c[0]-xr)**2 + (c[1]-yr)**2)
-
-            #   if dl<160:
-            #       overlay_image = cv2.circle(overlay_image, (c[0],c[1]), 90, (150,150,0), thickness =10)
-            #   elif dr<160:
-            #       overlay_image = cv2.circle(overlay_image, (c[0],c[1]), 90, (0,150,255), thickness =10)
-            #   else:
-            #       overlay_image = cv2.circle(overlay_image, (c[0],c[1]), 90, (0,0,0), thickness =10)
 
             cv2.imshow('posenet', overlay_image)
             frame_count += 1
             if cv2.waitKey(1) & 0xFF == ord('q'):
                 break
 
-        #print('Average FPS: ', frame_count / (time.time() - start))
+        print('Average FPS: ', frame_count / (time.time() - start))
 
 
 if __name__ == "__main__":
diff --git a/webcam_demo_try.py b/webcam_demo_try.py
@@ -0,0 +1,139 @@
+import tensorflow as tf
+import numpy as np
+import cv2
+import time
+import argparse
+import math
+import random
+from ffpyplayer.player import MediaPlayer
+
+import posenet
+
+parser = argparse.ArgumentParser()
+parser.add_argument('--model', type=int, default=101)
+parser.add_argument('--cam_id', type=int, default=0)
+parser.add_argument('--cam_width', type=int, default=1280)
+parser.add_argument('--cam_height', type=int, default=720)
+parser.add_argument('--scale_factor', type=float, default=0.2)
+parser.add_argument('--file', type=str, default=None, help="Optionally use a video file instead of a live camera")
+args = parser.parse_args()
+
+beat_times = [ 2.39165533,  3.34367347,  3.83129252,  4.29569161,  5.24770975,
+5.7353288 ,  6.22294785,  7.17496599,  7.66258503,  8.12698413,
+9.10222222,  9.58984127, 10.05424036, 11.0062585 , 11.49387755,
+11.9814966 , 12.93351474, 13.42113379, 13.90875283, 14.86077098,
+15.34839002, 15.81278912, 16.78802721, 17.2524263 , 17.74004535,
+18.69206349, 19.17968254, 19.66730159, 20.61931973, 21.10693878,
+21.57133787, 22.54657596, 23.01097506, 23.4985941 , 24.45061224,
+24.93823129]
+
+def main():
+    with tf.Session() as sess:
+        model_cfg, model_outputs = posenet.load_model(args.model, sess)
+        output_stride = model_cfg['output_stride']
+
+        if args.file is not None:
+            cap = cv2.VideoCapture(args.file)
+        else:
+            cap = cv2.VideoCapture(args.cam_id)
+        cap.set(3, args.cam_width)
+        cap.set(4, args.cam_height)
+
+        
+        frame_count = 0
+        intersect = False
+        c = (150,150)
+        j=0
+        hand = 'na'
+        while True:
+            input_image, display_image, output_scale = posenet.read_cap(
+                cap, scale_factor=args.scale_factor, output_stride=output_stride)
+
+            heatmaps_result, offsets_result, displacement_fwd_result, displacement_bwd_result = sess.run(
+                model_outputs,
+                feed_dict={'image:0': input_image}
+            )
+
+            pose_scores, keypoint_scores, keypoint_coords = posenet.decode_multi.decode_multiple_poses(
+                heatmaps_result.squeeze(axis=0),
+                offsets_result.squeeze(axis=0),
+                displacement_fwd_result.squeeze(axis=0),
+                displacement_bwd_result.squeeze(axis=0),
+                output_stride=output_stride,
+                max_pose_detections=1,
+                min_pose_score=0.25)
+
+            keypoint_coords *= output_scale
+
+            if pose_scores[0] == 0:
+                continue
+            pi = np.argmax(pose_scores)
+
+            # TODO this isn't particularly fast, use GL for drawing and display someday...
+            overlay_image = posenet.draw_skel_and_kp(
+                display_image, [pose_scores[pi]], keypoint_scores, keypoint_coords,
+                min_pose_score=0.25, min_part_score=0.25)
+
+            h,w = overlay_image.shape[:2]
+            circles = [(w//4,3*h//4),
+            (3*w//4,3*h//4),
+            (w//4,h//4),
+            (3*w//4,h//4),
+            (w//4,h//2),
+            (3*w//4,h//2),
+            ((w//4)-50,h//4),
+            ((3*w//4)+50,h//4),
+            ((3*w//4)+50,3*h//4),
+            ((w//4)-50,3*h//4)]
+
+            k = keypoint_coords[pi][-10:]
+            k = k.astype(int)
+            xl = (3*k[2,1] - k[0,1])//2
+            yl = (3*k[2,0] - k[0,0])//2
+            overlay_image = cv2.circle(overlay_image, (xl,yl), 70, (150,150,0), thickness =10)
+
+            xr = (3*k[3,1] - k[1,1])//2
+            yr = (3*k[3,0] - k[1,0])//2
+            overlay_image = cv2.circle(overlay_image, (xr,yr), 70, (0,150,255), thickness =10)
+
+            if not intersect:
+                dl = math.sqrt((c[0]-xl)**2 + (c[1]-yl)**2)
+                dr = math.sqrt((c[0]-xr)**2 + (c[1]-yr)**2)
+                if dl<160 or dr<160:
+                    intersect = True
+                    hand = 'left' if dl<160 else 'right'
+                    player = MediaPlayer('tt.mov')
+                    start = time.time() +0.5
+            else:
+                #print((time.time()-start))
+                if j<len(beat_times) and 0 <= (round((time.time()-start),1) - round((beat_times[j]),1)) <= 0.1:
+                    #print("yay", round((time.time()-start),1) - round((beat_times[j]),1))
+                    c = random.choice(circles)
+                    j+=1
+                    #intersect = False
+            overlay_image = cv2.circle(overlay_image, (c[0],c[1]), 90, (255,255,255), thickness =10)
+            overlay_image = cv2.flip(overlay_image,1)
+            #cv2.putText(overlay_image, 'rection time : '+ str(t), (20,30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,0,0), 2, cv2.LINE_AA)
+            #cv2.putText(overlay_image, 'hand : '+ hand, (20,55), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,0,0), 2, cv2.LINE_AA)
+
+            # for c in circles:
+            #   dl = math.sqrt((c[0]-xl)**2 + (c[1]-yl)**2)
+            #   dr = math.sqrt((c[0]-xr)**2 + (c[1]-yr)**2)
+
+            #   if dl<160:
+            #       overlay_image = cv2.circle(overlay_image, (c[0],c[1]), 90, (150,150,0), thickness =10)
+            #   elif dr<160:
+            #       overlay_image = cv2.circle(overlay_image, (c[0],c[1]), 90, (0,150,255), thickness =10)
+            #   else:
+            #       overlay_image = cv2.circle(overlay_image, (c[0],c[1]), 90, (0,0,0), thickness =10)
+
+            cv2.imshow('posenet', overlay_image)
+            frame_count += 1
+            if cv2.waitKey(1) & 0xFF == ord('q'):
+                break
+
+        #print('Average FPS: ', frame_count / (time.time() - start))
+
+
+if __name__ == "__main__":
+    main()