Sidharth Shanmugam Ответов: 2

C# & unity3d - какой самый быстрый способ чтения большого CSV-файла


У меня есть довольно большой набор данных CSV, около 13,5 МБ и примерно 120 000 строк и 13 столбцов. Код ниже раздела "Что я пробовал" - это текущее решение, которое у меня есть.

К счастью, поскольку я запускаю это через сопрограмму Unity, программа не зависает, но это текущее решение занимает 31 минуту и 44 секунды, чтобы прочитать весь CSV-файл целиком.

Есть ли другой способ сделать это? Я пытаюсь нацелиться на время синтаксического анализа менее 1 минуты.

Что я уже пробовал:

private IEnumerator readDataset()
{
    starsRead = 0;
    var totalLines = File.ReadLines(path).Count();
    totalStars = totalLines - 1;

    string firstLine = File.ReadLines(path).First();
    int columnCount = firstLine.Count(f => f == ',');

    string[,] datasetTable = new string[totalStars, columnCount];

    int lineLength;
    char bufferChar;
    var bufferString = new StringBuilder();
    int column;
    int row;

    using (FileStream fs = File.Open(path, FileMode.Open, FileAccess.Read, FileShare.ReadWrite))
    using (BufferedStream bs = new BufferedStream(fs))
    using (StreamReader sr = new StreamReader(bs))
    {
        string line = sr.ReadLine();
        while ((line = sr.ReadLine()) != null)
        {
            row = 0;
            column = 0;
            lineLength = line.Length;
            for (int i = 0; i < lineLength; i++)
            {
                bufferChar = line[i];
                if (bufferChar == ',')
                {
                    datasetTable[row, column] = bufferString.ToString();
                    column++;
                }
                else
                {
                    bufferString.Append(bufferChar);
                }
            }
            row++;
            starsRead++;
            yield return null;
        }
    }
}

F-ES Sitecore

Одна из проблем заключается в том, что Вы читаете файл дважды. Если вы делаете ReadLines().Подсчитайте, что вы анализируете весь файл. С таким же успехом вы можете просто вызвать ReadLines, сохранить его в массиве или списке и проанализировать его строка за строкой.

2 Ответов

Рейтинг:
2

Patrice T

Цитата:
это текущее решение занимает 31 минуту и 44 секунды, чтобы прочитать весь CSV-файл целиком.

Насколько я понимаю, проблема заключается не в чтении csv, а в том, что вы с ним делаете.
Покажите пример CVS с 2 строками и то, что должно войти в datasetTable.
С помощью csv типа:
title1,t2,t3,t4
a,b,c,d
e,f,g,h

Я ожидаю, что ваш код заполнит datasetTable следующим образом:
datasetTable[0,0]="a";
datasetTable[0,1]="ab";
datasetTable[0,2]="abc";
datasetTable[1,0]="abcde";
datasetTable[1,1]="abcdef";
datasetTable[1,2]="abcdefg";

А это, вероятно, не то, чего ты хочешь.

Ваш код ведет себя не так, как вы ожидаете, или вы не понимаете, почему !

Существует почти универсальное решение: запускайте свой код на отладчике шаг за шагом, проверяйте переменные.
Отладчик здесь, чтобы показать вам, что делает ваш код, и ваша задача-сравнить с тем, что он должен делать.
В отладчике нет никакой магии, он не знает, что должен делать ваш код, он не находит ошибок, он просто помогает вам, показывая, что происходит. Когда код не делает того, что ожидается, вы близки к ошибке.
Чтобы увидеть, что делает ваш код: просто установите точку останова и посмотрите, как работает ваш код, отладчик позволит вам выполнять строки 1 на 1 и проверять переменные по мере их выполнения.

Отладчик - Википедия, свободная энциклопедия[^]

Освоение отладки в Visual Studio 2010 - руководство для начинающих[^]
Базовая отладка с помощью Visual Studio 2010 - YouTube[^]

Отладка кода C# в Visual Studio - YouTube[^]

Отладчик здесь только для того, чтобы показать вам, что делает ваш код, и ваша задача-сравнить его с тем, что он должен делать.


Рейтинг:
1

#realJSOP

Я написал статью для импорта CSV, которую вы можете найти полезной - CSV/Excel File Parser - A Revisit[^]


Sidharth Shanmugam

Отличная статья, но разве можно не использовать пакет? Unity не очень хорошо работает с пакетами NuGet

#realJSOP

Вы можете отказаться от поддержки excel и, следовательно, не использовать пакет.