DoubleML
diff --git a/‎doubleml_serverless/double_ml_aws_lambda.py
Lines changed: 81 additions & 14 deletions b/‎doubleml_serverless/double_ml_aws_lambda.py
Lines changed: 81 additions & 14 deletions
diff --git a/‎doubleml_serverless/double_ml_iivm_aws_lambda.py
Lines changed: 18 additions & 47 deletions b/‎doubleml_serverless/double_ml_iivm_aws_lambda.py
Lines changed: 18 additions & 47 deletions
diff --git a/‎doubleml_serverless/double_ml_irm_aws_lambda.py
Lines changed: 16 additions & 46 deletions b/‎doubleml_serverless/double_ml_irm_aws_lambda.py
Lines changed: 16 additions & 46 deletions
diff --git a/‎doubleml_serverless/double_ml_pliv_aws_lambda.py
Lines changed: 14 additions & 44 deletions b/‎doubleml_serverless/double_ml_pliv_aws_lambda.py
Lines changed: 14 additions & 44 deletions
@@ -1,13 +1,18 @@
 import pandas as pd
 import asyncio
 import aiobotocore
+from botocore import UNSIGNED
+from botocore.config import Config
 import json
 
-from .lambda_functions.cv_predict import lambda_cv_predict
+from abc import ABC, abstractmethod
+
+#from .lambda_functions.cv_predict import lambda_cv_predict
 from ._helper import _extract_preds, _extract_lambda_metrics
 
 
-class DoubleMLLambda:
+class DoubleMLLambda(ABC):
+
     def __init__(self,
                  lambda_function_name,
                  aws_region):
@@ -41,24 +46,54 @@ def aws_lambda_metrics(self):
         metrics['Avg Max Memory Used (MB)'] = df['Max Memory Used'].mean()
         return metrics
 
+    @abstractmethod
+    def _ml_nuisance_aws_lambda(self, cv_params):
+        pass
+
+    @abstractmethod
+    def _est_causal_pars_and_se(self):
+        pass
+
+    @abstractmethod
+    def _clean_scores(self):
+        pass
+
+    def fit_aws_lambda(self, n_lambdas_cv='n_folds * n_rep', seed=None, keep_scores=True):
+        """
+        Parameters
+        ----------
+        n_lambdas_cv : str
+
+        seed : int or None
+
+        keep_scores : bool
+        """
+        if (not isinstance(n_lambdas_cv, str)) | (n_lambdas_cv not in ['n_folds * n_rep', 'n_rep']):
+            raise ValueError('n_lambdas_cv must be "n_folds * n_rep" or "n_rep"'
+                             f' got {str(n_lambdas_cv)}')
+
+        # ml estimation of nuisance models and computation of score elements
+        cv_params = {'n_lambdas_cv': n_lambdas_cv,
+                     'seed': seed}
+        self._ml_nuisance_aws_lambda(cv_params)
+
+        self._est_causal_pars_and_se()
+
+        if not keep_scores:
+            self._clean_scores()
+
+        return self
+
     def invoke_lambdas(self, payloads, smpls, params_names, n_obs, n_rep, n_jobs_cv):
-        if self.lambda_function_name == 'local':
-            assert self.aws_region == 'local'
-            # this callable option is just for local testing
-            context = dict()
-            results = []
-            for this_payload in payloads:
-                xx = json.dumps(this_payload)
-                yy = json.loads(xx)
-                this_res = dict()
-                this_res['payload'] = json.dumps(lambda_cv_predict(yy, context))
-                results.append(this_res)
+        if self.aws_region == 'local':
+            loop = asyncio.get_event_loop()
+            results = loop.run_until_complete(self.__invoke_aws_lambdas_locally(payloads))
         else:
             loop = asyncio.get_event_loop()
             results = loop.run_until_complete(self.__invoke_aws_lambdas(payloads))
         preds, requests = _extract_preds(results, smpls, params_names,
                                          n_obs, n_rep, n_jobs_cv)
-        if self.lambda_function_name != 'local':
+        if self.aws_region != 'local':
             df_lambda_metrics = _extract_lambda_metrics(results)
             self.aws_lambda_detailed_metrics = self.aws_lambda_detailed_metrics.append(
                 pd.concat((requests, df_lambda_metrics), axis=1))
@@ -90,3 +125,35 @@ async def __invoke_single_aws_lambda(self, session, payload):
 
         return res
 
+    async def __invoke_aws_lambdas_locally(self, payloads):
+        session = aiobotocore.get_session()
+        tasks = []
+        for this_payload in payloads:
+            tasks.append(self.__invoke_single_aws_lambda_locally(session, this_payload))
+        results = await asyncio.gather(*tasks)
+        return results
+
+    async def __invoke_single_aws_lambda_locally(self, session, payload):
+        async with session.create_client('lambda',
+                                         endpoint_url='http://127.0.0.1:3001',
+                                         use_ssl=False,
+                                         verify=False,
+                                         config=Config(signature_version=UNSIGNED,
+                                                       read_timeout=0,
+                                                       retries={'max_attempts': 0})
+                                         ) as lambda_client:
+            # print(f'Invoking {payload["learner"]} {payload["i_rep"]} {payload["i_fold"]}')
+            response = await lambda_client.invoke(
+                FunctionName=self.lambda_function_name,
+                InvocationType='RequestResponse',
+                LogType='None',
+                Payload=json.dumps(payload),
+            )
+            # print(f'Done {payload["learner"]} {payload["i_rep"]} {payload["i_fold"]}')
+            res = dict()
+            async with response['Payload'] as stream:
+                res['payload'] = await stream.read()
+            # res['log'] = response['LogResult']
+            # print(f'Finished {payload["learner"]} {payload["i_rep"]} {payload["i_fold"]}')
+
+        return res
@@ -41,43 +41,15 @@ def __init__(self,
                                 lambda_function_name,
                                 aws_region)
 
-    # this method overwrites DoubleML.fit() to implement the fit via aws lambda
-    def fit(self, n_jobs_cv='n_folds * n_rep', seed=None, keep_scores=True):
-        """
-        Parameters
-        ----------
-        n_jobs_cv : str
-
-        seed : int or None
-
-        keep_scores : bool
-        """
-
-        if (not isinstance(n_jobs_cv, str)) | (n_jobs_cv not in ['n_folds * n_rep', 'n_rep']):
-            raise ValueError('n_jobs_cv must be "n_folds * n_rep" or "n_rep"'
-                             f' got {str(n_jobs_cv)}')
-
+    def _ml_nuisance_aws_lambda(self, cv_params):
         assert self._dml_data.n_treat == 1
         self._i_treat = 0
 
-        # ml estimation of nuisance models and computation of score elements
-        psi_a, psi_b = self._ml_nuisance_and_score_elements(self.smpls, n_jobs_cv, seed)
-        self._psi_a[:, :, self._i_treat] = psi_a
-        self._psi_b[:, :, self._i_treat] = psi_b
-
-        self._est_causal_pars_and_se()
-
-        if not keep_scores:
-            self._clean_scores()
-
-        return self
-
-    def _ml_nuisance_and_score_elements(self, smpls, n_jobs_cv, seed):
         x, y = check_X_y(self._dml_data.x, self._dml_data.y)
         x, z = check_X_y(x, np.ravel(self._dml_data.z))
         x, d = check_X_y(x, self._dml_data.d)
         # get train indices for z == 0 and z == 1
-        smpls_z0, smpls_z1 = _get_cond_smpls(smpls, z)
+        smpls_z0, smpls_z1 = _get_cond_smpls(self.smpls, z)
 
         payload = self._dml_data.get_payload()
 
@@ -111,32 +83,31 @@ def _ml_nuisance_and_score_elements(self, smpls, n_jobs_cv, seed):
                         method='predict_proba')
 
         all_payloads = [payload_ml_g0, payload_ml_g1, payload_ml_m, payload_ml_r0, payload_ml_r1]
-        all_smpls = [smpls_z0, smpls_z1, smpls, smpls_z0, smpls_z1]
+        all_smpls = [smpls_z0, smpls_z1, self.smpls, smpls_z0, smpls_z1]
 
         payloads = _attach_smpls(all_payloads,
                                  all_smpls,
                                  self.n_folds,
                                  self.n_rep,
                                  self._dml_data.n_obs,
-                                 n_jobs_cv,
+                                 cv_params['n_lambdas_cv'],
                                  [True, True, False, True, True],
-                                 seed)
+                                 cv_params['seed'])
 
-        preds = self.invoke_lambdas(payloads, smpls, self.params_names,
+        preds = self.invoke_lambdas(payloads, self.smpls, self.params_names,
                                     self._dml_data.n_obs, self.n_rep,
-                                    n_jobs_cv)
-
-        psi_a = np.full((self._dml_data.n_obs, self.n_rep), np.nan)
-        psi_b = np.full((self._dml_data.n_obs, self.n_rep), np.nan)
+                                    cv_params['n_lambdas_cv'])
 
         for i_rep in range(self.n_rep):
             # compute score elements
-            psi_a[:, i_rep], psi_b[:, i_rep] = self._score_elements(y, z, d,
-                                                                    preds['ml_g0'][:, i_rep],
-                                                                    preds['ml_g1'][:, i_rep],
-                                                                    preds['ml_m'][:, i_rep],
-                                                                    preds['ml_r0'][:, i_rep],
-                                                                    preds['ml_r1'][:, i_rep],
-                                                                    smpls[i_rep])
-
-        return psi_a, psi_b
+
+            self._psi_a[:, i_rep, self._i_treat], self._psi_b[:, i_rep, self._i_treat] = \
+                self._score_elements(y, z, d,
+                                     preds['ml_g0'][:, i_rep],
+                                     preds['ml_g1'][:, i_rep],
+                                     preds['ml_m'][:, i_rep],
+                                     preds['ml_r0'][:, i_rep],
+                                     preds['ml_r1'][:, i_rep],
+                                     self.smpls[i_rep])
+
+        return
@@ -39,42 +39,14 @@ def __init__(self,
                                 lambda_function_name,
                                 aws_region)
 
-    # this method overwrites DoubleML.fit() to implement the fit via aws lambda
-    def fit(self, n_jobs_cv='n_folds * n_rep', seed=None, keep_scores=True):
-        """
-        Parameters
-        ----------
-        n_jobs_cv : str
-
-        seed : int or None
-
-        keep_scores : bool
-        """
-
-        if (not isinstance(n_jobs_cv, str)) | (n_jobs_cv not in ['n_folds * n_rep', 'n_rep']):
-            raise ValueError('n_jobs_cv must be "n_folds * n_rep" or "n_rep"'
-                             f' got {str(n_jobs_cv)}')
-
+    def _ml_nuisance_aws_lambda(self, cv_params):
         assert self._dml_data.n_treat == 1
         self._i_treat = 0
 
-        # ml estimation of nuisance models and computation of score elements
-        psi_a, psi_b = self._ml_nuisance_and_score_elements(self.smpls, n_jobs_cv, seed)
-        self._psi_a[:, :, self._i_treat] = psi_a
-        self._psi_b[:, :, self._i_treat] = psi_b
-
-        self._est_causal_pars_and_se()
-
-        if not keep_scores:
-            self._clean_scores()
-
-        return self
-
-    def _ml_nuisance_and_score_elements(self, smpls, n_jobs_cv, seed):
         x, y = check_X_y(self._dml_data.x, self._dml_data.y)
         x, d = check_X_y(x, self._dml_data.d)
         # get train indices for d == 0 and d == 1
-        smpls_d0, smpls_d1 = _get_cond_smpls(smpls, d)
+        smpls_d0, smpls_d1 = _get_cond_smpls(self.smpls, d)
 
         payload = self._dml_data.get_payload()
 
@@ -97,33 +69,31 @@ def _ml_nuisance_and_score_elements(self, smpls, n_jobs_cv, seed):
                         method='predict_proba')
         if (self.score == 'ATE') | callable(self.score):
             all_payloads = [payload_ml_g0, payload_ml_g1, payload_ml_m]
-            all_smpls = [smpls_d0, smpls_d1, smpls]
+            all_smpls = [smpls_d0, smpls_d1, self.smpls]
         else:
             all_payloads = [payload_ml_g0, payload_ml_m]
-            all_smpls = [smpls_d0, smpls]
+            all_smpls = [smpls_d0, self.smpls]
 
         payloads = _attach_smpls(all_payloads,
                                  all_smpls,
                                  self.n_folds,
                                  self.n_rep,
                                  self._dml_data.n_obs,
-                                 n_jobs_cv,
+                                 cv_params['n_lambdas_cv'],
                                  [True, True, False],
-                                 seed)
+                                 cv_params['seed'])
 
-        preds = self.invoke_lambdas(payloads, smpls, self.params_names,
+        preds = self.invoke_lambdas(payloads, self.smpls, self.params_names,
                                     self._dml_data.n_obs, self.n_rep,
-                                    n_jobs_cv)
-
-        psi_a = np.full((self._dml_data.n_obs, self.n_rep), np.nan)
-        psi_b = np.full((self._dml_data.n_obs, self.n_rep), np.nan)
+                                    cv_params['n_lambdas_cv'])
 
         for i_rep in range(self.n_rep):
             # compute score elements
-            psi_a[:, i_rep], psi_b[:, i_rep] = self._score_elements(y, d,
-                                                                    preds['ml_g0'][:, i_rep],
-                                                                    preds['ml_g1'][:, i_rep],
-                                                                    preds['ml_m'][:, i_rep],
-                                                                    smpls[i_rep])
-
-        return psi_a, psi_b
+            self._psi_a[:, i_rep, self._i_treat], self._psi_b[:, i_rep, self._i_treat] = \
+                self._score_elements(y, d,
+                                     preds['ml_g0'][:, i_rep],
+                                     preds['ml_g1'][:, i_rep],
+                                     preds['ml_m'][:, i_rep],
+                                     self.smpls[i_rep])
+
+        return
@@ -35,38 +35,10 @@ def __init__(self,
                                 lambda_function_name,
                                 aws_region)
 
-    # this method overwrites DoubleML.fit() to implement the fit via aws lambda
-    def fit(self, n_jobs_cv='n_folds * n_rep', seed=None, keep_scores=True):
-        """
-        Parameters
-        ----------
-        n_jobs_cv : str
-
-        seed : int or None
-
-        keep_scores : bool
-        """
-
-        if (not isinstance(n_jobs_cv, str)) | (n_jobs_cv not in ['n_folds * n_rep', 'n_rep']):
-            raise ValueError('n_jobs_cv must be "n_folds * n_rep" or "n_rep"'
-                             f' got {str(n_jobs_cv)}')
-
+    def _ml_nuisance_aws_lambda(self, cv_params):
         assert self._dml_data.n_treat == 1
         self._i_treat = 0
 
-        # ml estimation of nuisance models and computation of score elements
-        psi_a, psi_b = self._ml_nuisance_and_score_elements(self.smpls, n_jobs_cv, seed)
-        self._psi_a[:, :, self._i_treat] = psi_a
-        self._psi_b[:, :, self._i_treat] = psi_b
-
-        self._est_causal_pars_and_se()
-
-        if not keep_scores:
-            self._clean_scores()
-
-        return self
-
-    def _ml_nuisance_and_score_elements(self, smpls, n_jobs_cv, seed):
         x, y = check_X_y(self._dml_data.x, self._dml_data.y)
         x, d = check_X_y(x, self._dml_data.d)
         assert self._dml_data.n_instr == 1
@@ -92,27 +64,25 @@ def _ml_nuisance_and_score_elements(self, smpls, n_jobs_cv, seed):
                         self._dml_data.d_cols[0], self._dml_data.x_cols)
 
         payloads = _attach_smpls([payload_ml_g, payload_ml_m, payload_ml_r],
-                                 [smpls, smpls, smpls],
+                                 [self.smpls, self.smpls, self.smpls],
                                  self.n_folds,
                                  self.n_rep,
                                  self._dml_data.n_obs,
-                                 n_jobs_cv,
+                                 cv_params['n_lambdas_cv'],
                                  [False, False, False],
-                                 seed)
+                                 cv_params['seed'])
 
-        preds = self.invoke_lambdas(payloads, smpls, self.params_names,
+        preds = self.invoke_lambdas(payloads, self.smpls, self.params_names,
                                     self._dml_data.n_obs, self.n_rep,
-                                    n_jobs_cv)
-
-        psi_a = np.full((self._dml_data.n_obs, self.n_rep), np.nan)
-        psi_b = np.full((self._dml_data.n_obs, self.n_rep), np.nan)
+                                    cv_params['n_lambdas_cv'])
 
         for i_rep in range(self.n_rep):
             # compute score elements
-            psi_a[:, i_rep], psi_b[:, i_rep] = self._score_elements(y, z, d,
-                                                                    preds['ml_g'][:, i_rep],
-                                                                    preds['ml_m'][:, i_rep],
-                                                                    preds['ml_r'][:, i_rep],
-                                                                    smpls[i_rep])
-
-        return psi_a, psi_b
+            self._psi_a[:, i_rep, self._i_treat], self._psi_b[:, i_rep, self._i_treat] = \
+                self._score_elements(y, z, d,
+                                     preds['ml_g'][:, i_rep],
+                                     preds['ml_m'][:, i_rep],
+                                     preds['ml_r'][:, i_rep],
+                                     self.smpls[i_rep])
+
+        return