<p>The Dataset and Experimentation tool project starts with a few flints of ideas:<br>
• checking a dataset for loading problems and printing errors<br>
• imputation strategies for missing variables<br>
• splitting a dataset into a training and test set<br>
• converting categorical features into binary features (or numeric features)</p>

<p>By analyzing the needs I felt the simple and intuitive console application that evaluates the dataset and solves some commonly faced problems can be a good solution to this problem.<br>
I divided the prospective application into four major modules.</p>

<ul>
<li>Data IO - Convert to CSV, ARFF, or save into a particular format. (Maybe provide better result with external libraries) </li>
<li>Data Transformation - Join/Split, Edit Metadata (Feature type detection &amp; Transformation), remove target leaks, clean missing data (customize, replace with mean, mode, median or remove entire row), fix scaling issues, and etc.</li>
<li>Statistical Analytics - Descriptive Statistics (Row count, unique value count, missing value count, min, max, mean, median, mode, 1st and 3rd quartile, and etc.), T-Test and etc.</li>
<li>Mathematical Operators - rounding, applying math operations, extracting hours from timestamps, apply time zone, and etc.</li>
</ul>

<p>Please let me know if I am going to the right direction. <br>
Also, Let me know if there is another idea or resource that might help with this project. </p>

<p style="font-size:small;-webkit-text-size-adjust:none;color:#666;">&mdash;<br />You are receiving this because you are subscribed to this thread.<br />Reply to this email directly or <a href="https://github.com/mlpack/mlpack/issues/582">view it on GitHub</a><img alt="" height="1" src="https://github.com/notifications/beacon/AJ4bFC_801KY-deAmlNKHh8DWMl_meadks5pvVGagaJpZM4H0q5B.gif" width="1" /></p>
<div itemscope itemtype="http://schema.org/EmailMessage">
<div itemprop="action" itemscope itemtype="http://schema.org/ViewAction">
  <link itemprop="url" href="https://github.com/mlpack/mlpack/issues/582"></link>
  <meta itemprop="name" content="View Issue"></meta>
</div>
<meta itemprop="description" content="View this Issue on GitHub"></meta>
</div>