<p>Following are my personal opinions, just take it as reference.</p>

<blockquote>
<p>It would be a real help to know what you guys feel the most needed</p>
</blockquote>

<p>1 : Split a dataset into a training and test set(<a href="https://github.com/mlpack/mlpack/pull/523" class="issue-link js-issue-link" data-url="https://github.com/mlpack/mlpack/issues/523" data-id="135956283" data-error-text="Failed to load issue title" data-permission-text="Issue title is private">#523</a> may give you some helps)<br>
2 : Checking a dataset for loading problems and printing errors, the api/cli should be able to give users imputation strategies for missing variables, give warning to invalid, problematic values<br>
3 : converting categorical features into binary features (or numeric features)</p>

<p>The command line tools I feel the most needed are<br>
1 : mlpack_datatools_trans<br>
2 : mlpack_datatools_stats<br>
3 : mlpack_datatools_math<br>
4 : mlpack_datatools_eval<br>
5 : mlpack_datatools_io</p>

<p>About the mlpack_datatools_io, I am not sure it is a good idea to increase dependency of mlpack or not, it would be great if you could make them as optional for users. In short, the dependency would not affect the build process if the users do not need those features which rely on external libraries.</p>

<p>About the time-zone, which time-zone you want to support?How do users specify the format of the time-zone?Boost date_time may help you save some headaches.</p>

<blockquote>
<p>I want to know possible usecases while preprocessing.</p>
</blockquote>

<p>By usual I do not check the validity of the data, just assume they are valid, I think I can't help you about this part. </p>

<blockquote>
<p>Most frequently used methods, alternative tools, and all the other information regarding it help.</p>
</blockquote>

<p>About the statistic part, armadillo and boost accumulators provide a lot of useful functions, sometimes I also use the function of opencv to do the statistic when I am doing computer vision tasks.</p>

<p>About the database manipulation, I always rely on Qt5, whatever, it is too big if your purpose is provide database manipulation only. </p>

<p>I could help you do the test on windows platform(win8, vc2015 64bits)</p>

<p style="font-size:small;-webkit-text-size-adjust:none;color:#666;">&mdash;<br />You are receiving this because you are subscribed to this thread.<br />Reply to this email directly or <a href="https://github.com/mlpack/mlpack/issues/599#issuecomment-204871813">view it on GitHub</a><img alt="" height="1" src="https://github.com/notifications/beacon/AJ4bFIcNfjBldXWLelUhrPQme4Ar0Cinks5pz0m0gaJpZM4H8gdx.gif" width="1" /></p>
<div itemscope itemtype="http://schema.org/EmailMessage">
<div itemprop="action" itemscope itemtype="http://schema.org/ViewAction">
  <link itemprop="url" href="https://github.com/mlpack/mlpack/issues/599#issuecomment-204871813"></link>
  <meta itemprop="name" content="View Issue"></meta>
</div>
<meta itemprop="description" content="View this Issue on GitHub"></meta>
</div>