[mlpack-svn] r15612 - in mlpack/conf/jenkins-conf/benchmark: . benchmark

Tue Aug 13 15:17:59 EDT 2013

Author: marcus
Date: Tue Aug 13 15:17:58 2013
New Revision: 15612

Log:
Adjust parameters for the range search method and clean the benchmark main method.

Modified:
   mlpack/conf/jenkins-conf/benchmark/benchmark/run_benchmark.py
   mlpack/conf/jenkins-conf/benchmark/config.yaml

Modified: mlpack/conf/jenkins-conf/benchmark/benchmark/run_benchmark.py
==============================================================================

--- mlpack/conf/jenkins-conf/benchmark/benchmark/run_benchmark.py	(original)
+++ mlpack/conf/jenkins-conf/benchmark/benchmark/run_benchmark.py	Tue Aug 13 15:17:58 2013
@@ -37,20 +37,6 @@
   Log.Info('CPU Cores: ' + SystemInfo.GetCPUCores())
 
 '''
-Check if the file is available in one of the given formats.
-
- at param dataset - Datsets which should be checked.
- at param formats - List of supported file formats.
- at return Orginal dataset or dataset with new file format.
-'''
-def CheckFileExtension(dataset, formats):
-  dataExtension = os.path.splitext(dataset)[1][1:]
-  if dataExtension in formats:
-    return dataset
-  else:
-    return dataset[0:len(dataset) - len(dataExtension)] + formats[0]
-
-'''
 Return a list with modified dataset.
 
 @param dataset - Datasets to be modified.
@@ -92,19 +78,6 @@
   return (datasetList, modifiedList)
 
 '''
-This function Remove a given file or list of files.
-
- at param dataset - File or list of file which should be deleted.
-'''
-def RemoveDataset(dataset):
-  if isinstance(dataset, str):
-    dataset = [dataset]
-
-  for f in dataset:
-    if os.path.isfile(f):
-      os.remove(f)
-
-'''
 Count all datasets to determine the dataset size.
 
 @param libraries - Contains the Dataset List.
@@ -138,7 +111,6 @@
   streamData = config.StreamMerge()
 
   # Read the general block and set the attributes.
-
   if "general" in streamData:
     for key, value in streamData["general"]:
       if key == "timeout":
@@ -192,14 +164,12 @@
         format = libary[4]
 
         header.append(name)
-
-       
         
         if not blocks or name in blocks:
           run += 1
           Log.Info("Libary: " + name)
 
-          # Logging: create a new build and libary record for this libary.
+          # Logging: create a new build and library record for this library.
           if log and name not in build:
             libaryId = db.GetLibrary(name)
             libaryId = libaryId[0][0] if libaryId else db.NewLibrary(name)
@@ -216,21 +186,22 @@
           else:
 
             for dataset in datsets:  
-              datasetName = NormalizeDatasetName(dataset)          
+              datasetName = NormalizeDatasetName(dataset)
               row = FindRightRow(dataMatrix, datasetName, datasetCount)
 
               # Logging: Create a new dataset record fot this dataset.
               if log:
                 datasetId = db.GetDataset(datasetName)
-                datasetId = datasetId[0][0] if datasetId else db.NewDataset(*DatasetInfo(dataset))                
+                datasetId = datasetId[0][0] if datasetId else db.NewDataset(*DatasetInfo(dataset))
 
-              dataMatrix[row][0] = NormalizeDatasetName(dataset)
-              Log.Info("Dataset: " + dataMatrix[row][0])    
+              dataMatrix[row][0] = datasetName
+              Log.Info("Dataset: " + dataMatrix[row][0])
 
               modifiedDataset = GetDataset(dataset, format)
 
               try:
-                instance = methodCall(modifiedDataset[0], timeout=timeout, verbose=False)
+                instance = methodCall(modifiedDataset[0], timeout=timeout, 
+                  verbose=False)
               except Exception as e:
                 Log.Fatal("Could not call the constructor: " + script)
                 Log.Fatal("Exception: " + str(e))
@@ -265,7 +236,8 @@
                   var = sum((avg - value) ** 2 for value in time) / len(time)
 
                 buildId, libaryId = build[name]
-                db.NewResult(buildId, libaryId, dataMatrix[row][col], var, datasetId, methodId)
+                db.NewResult(buildId, libaryId, dataMatrix[row][col], var, 
+                    datasetId, methodId)
 
               # Remove temporary datasets.
               RemoveDataset(modifiedDataset[1])

Modified: mlpack/conf/jenkins-conf/benchmark/config.yaml
==============================================================================
--- mlpack/conf/jenkins-conf/benchmark/config.yaml	(original)
+++ mlpack/conf/jenkins-conf/benchmark/config.yaml	Tue Aug 13 15:17:58 2013
@@ -88,50 +88,50 @@
         datasets:
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k linear'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k gaussian'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k polynomial'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k hyptan'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k laplacian'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k cosine'
     LARS:
           run: true
@@ -303,21 +303,21 @@
                       'datasets/madelon_X.csv', 'datasets/arcene_X.csv',
                       'datasets/corel-histogram.csv', 'datasets/isolet.csv',
                       'datasets/covtype.csv', 'datasets/Twitter.csv']
-              options: '-M 20.3'
+              options: '-M 0.02'
 
             - files: ['datasets/wine.csv', 'datasets/ionosphere.csv',
                       'datasets/cloud.csv', 'datasets/vehicle.csv',
                       'datasets/madelon_X.csv', 'datasets/arcene_X.csv',
                       'datasets/corel-histogram.csv', 'datasets/isolet.csv',
                       'datasets/covtype.csv', 'datasets/Twitter.csv']
-              options: '-M 20.3 -N'
+              options: '-M 0.02 -N'
 
             - files: ['datasets/wine.csv', 'datasets/ionosphere.csv',
                       'datasets/cloud.csv', 'datasets/vehicle.csv',
                       'datasets/madelon_X.csv', 'datasets/arcene_X.csv',
                       'datasets/corel-histogram.csv', 'datasets/isolet.csv',
                       'datasets/covtype.csv', 'datasets/Twitter.csv']
-              options: '-M 20.3 -s'
+              options: '-M 0.02 -s'
     GMM:
         run: true
         script: methods/mlpack/gmm.py
@@ -651,7 +651,7 @@
                       'datasets/madelon_X.csv', 'datasets/arcene_X.csv',
                       'datasets/corel-histogram.csv', 'datasets/isolet.csv',
                       'datasets/covtype.csv', 'datasets/Twitter.csv']
-              options: '-M 20.3'
+              options: '-M 0.02'
     LinearRegression:
         run: true
         iteration: 3
@@ -781,26 +781,26 @@
         datasets:
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k linear'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k polynomial'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k hyptan'
     LARS:
         run: true
@@ -943,26 +943,26 @@
         datasets:
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k linear'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k gaussian'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k hyptan'
     LARS:
         run: true
@@ -1080,34 +1080,34 @@
         datasets:
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k linear'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k gaussian'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k polynomial'
 
             - files: ['datasets/circle_data.csv', 'datasets/stock.csv',
                       'datasets/abalone.csv', 'datasets/bank8FM.csv',
-                      'datasets/waveform.csv', 'datasets/cal_housing.csv',
-                      'datasets/TomsHardware.csv', 'datasets/arcene_X.csv',
-                      'datasets/madelon_X.csv', 'datasets/pendigits.csv',
-                      'datasets/isolet.csv', 'datasets/covtype.csv']
+                      'datasets/waveform.csv', 'datasets/TomsHardware.csv',
+                      'datasets/arcene_X.csv', 'datasets/madelon_X.csv',
+                      'datasets/pendigits.csv', 'datasets/isolet.csv',
+                      'datasets/covtype.csv']
               options: '-k hyptan'
     NBC:
         run: true