Войти
Все секреты компьютера для новичка и профессионала
  • Почему Теле2 не ловит сеть
  • Win Mobile Крым: обслуживание
  • Установленная игра не запускается
  • Что делать, если не загружается игра на компьютере
  • Получение Root Sony Xperia ZR LTE (C5503)
  • Как ускорить андроид с помощью настроек разработчика
  • Что за формат csv. Что такое CSV файл и как он помогает экспортировать и импортировать данные в Интернет-магазине? Что такое csv файл

    Что за формат csv. Что такое CSV файл и как он помогает экспортировать и импортировать данные в Интернет-магазине? Что такое csv файл
    формат , предназначенный для представления табличных данных. Каждая строка файла - это одна строка таблицы. Значения отдельных колонок разделяются разделительным символом (delimiter) - запятой (,). Однако, большинство программ вольно трактует стандарт CSV и допускают использование иных символов в качестве разделителя. В частности в локалях , где десятичным разделителем является запятая, в качестве табличного разделителя, как правило, используется точка с запятой. Значения, содержащие зарезервированные символы (запятая, точка с запятой, новая строка) обрамляются двойными кавычками ("); если в значении встречаются кавычки - они представляются в файле в виде двух кавычек подряд. Строки разделяются парой символов CR LF (0x0D 0x0A) (в DOS и Windows эта пара генерируется нажатием клавиши Enter). Однако конкретные реализации могут использовать другие общепринятые разделители строк, например LF (0x0A) в UNIX .

    Несмотря на наличие RFC , на сегодняшний день, под CSV, как правило, понимают набор значений, разделенных какими угодно разделителями, в какой угодно кодировке с какими угодно окончаниями строк. Это значительно затрудняет перенос данных из одних программ в другие, несмотря на всю простоту реализации поддержки CSV.

    Пример

    Исходный текст:

    1997,Ford,E350,"ac, abs, moon",3000.00 1999,Chevy,"Venture ""Extended Edition""","",4900.00 1996,Jeep,Grand Cherokee,"MUST SELL! air, moon roof, loaded",4799.00

    Результирующая таблица:

    Для русифицированного Microsoft Excel (в системах, на которых разделителем списка установлена запятая) исходный текст будет выглядеть так:

    1965;Пиксел;E240 – формальдегид (опасный консервант)!;"красный, зелёный, битый";3000,00 1965;Мышка;"А правильней ""Использовать Ёлочки""";;4900,00 "Н/д";Кнопка;Сочетания клавиш;"MUST USE! Ctrl, Alt, Shift";4799,00

    Результирующая таблица:

    Программы для редактирования CSV-файлов: Microsoft Excel, Numbers, ТаблицаПро, CSVed, OpenOffice.org Calc , KSpread , Google Docs . Импорт и экспорт CSV-файлов возможен во многих инженерных пакетах, например, ANSYS и LabVIEW . Также CSV-файлы создаёт Nokia PC Suite при копировании SMS -сообщений c мобильного телефона на компьютер.

    См. также

    Ссылки

    • CSV-1203 (English) (англ.)
    • RFC 4180, спецификация (англ.)

    Wikimedia Foundation . 2010 .

    • Гамма (буква)

    Смотреть что такое "CSV" в других словарях:

      CSV - Saltar a navegación, búsqueda Para otros usos de este término, véase CSV (desambiguación). Los ficheros CSV (del inglés comma separated values) son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las… … Wikipedia Español

      CSV - may refer to: Clerics of Saint Viator Common Stored Value Ticket Confederación Sudamericana de Voleibol Character Strengths and Virtues Christian Social People s Party Community Service Volunteers GM U platform, a minivan made by General Motors… … Wikipedia

      Csv - steht für: Certified Server Validation, eine vorgeschlagene technische Methode zur Spam Vermeidung Character Separated Values oder Comma Separated Values, siehe CSV (Dateiformat) Chrëschtlech Sozial Vollekspartei (Christlich Soziale Volkspartei) … Deutsch Wikipedia

      CSV - formatas statusas T sritis informatika apibrėžtis Duomenų bazės laukų įrašymo tekstiniu formatu būdas, kai duomenų laukai skiriami kableliais. Naują įrašą atitinka nauja eilutė. CSV formatas dažnai naudojamas adresų knygos duomenims, programos… … Enciklopedinis kompiuterijos žodynas

      .csv - , Erweiterung für eine ASCII Datei, die Daten aus einer Datenbankdatei enthält (Comma separated Values) … Universal-Lexikon

      CSV - (Comma Separated Values) (Computers) file format used for storing database information in ASCII format (each entry or field is separated by a comma and each new row is represented by a new line) … English contemporary dictionary

      .csv - Das Dateiformat CSV beschreibt den Aufbau einer Textdatei zur Speicherung oder zum Austausch einfach strukturierter Daten. Die Dateiendung CSV ist eine Abkürzung für Comma Separated Values (seltener Character Separated Values oder Colon Separated … Deutsch Wikipedia

      CSV - Die Abkürzung CSV steht für: Certified Server Validation, eine vorgeschlagene technische Methode zur Spam Vermeidung Comma Separated Values oder Character Separated Values, ein Dateiformat, siehe CSV (Dateiformat) Christlich Soziale Volkspartei… … Deutsch Wikipedia

      CSV - cash surrender value (CSV) The amount of cash that can be obtained by the policy owner upon cancellation of a whole life insurance policy. CSV may also be borrowed by the policy owner. Only certain kinds of life insurance policies have cash… … Financial and business terms

      CSV - Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sigles d’une seule lettre Sigles de deux lettres > Sigles de trois lettres Sigles de quatre lettres … Wikipédia en Français

    Книги

    • Python. Создание приложений. Библиотека профессионала , Уэсли Дж. Чан. Вы уже знаете язык Python, но хотите узнать больше? Намного больше? Погрузитесь в разнообразие тем, связанных с реальными приложениями. Книга охватывает регулярные выражения, сетевое…

    Наиболее часто встречаемой проблемой, из-за которой пользователи не могут открыть этот файл, является неверно назначенная программа. Чтобы исправить это в ОС Windows вам необходимо нажать правой кнопкой на файле, в контекстном меню навести мышь на пункт "Открыть с помощью", а выпадающем меню выбрать пункт "Выбрать программу...". В результате вы увидите список установленных программ на вашем компьютере, и сможете выбрать подходящую. Рекомендуем также поставить галочку напротив пункта "Использовать это приложение для всех файлов CSV".

    Другая проблема, с которой наши пользователи также встречаются довольно часто - файл CSV поврежден. Такая ситуация может возникнуть в массе случаев. Например: файл был скачан не польностью в результате ошибки сервера, файл был поврежден изначально и пр. Для устранения данной проблемы воспользуйтесь одной из рекомендаций:

    • Попробуйте найти нужный файл в другом источнике в сети интернет. Возможно вам повезет найти более подходящую версию. Пример поиска в Google: "Файл filetype:CSV" . Просто замените слово "файл" на нужное вам название;
    • Попросите прислать вам исходный файл еще раз, возможно он был поврежден при передаче;

    Если у вас уже солидная база клиентов, база заказов и соответственно детальные описания продуктов, которые вы продаете, то рано или поздно перед вами встанет проблема обмена и сбережения информации.

    Возможные проблемы для рабочего Интернет-магазина:

    • Как собрать и сохранить данные клиентов?
    • Как выбрать и отфильтровать данные по заказам?
    • Как подсчитать заказы (создание выборок и различные вычисления)?
    • Как перенести описания товаров в другой Интернет-магазин или на другую базу?

    По ходу работы Интернет магазина возникают новые и дополнительные вопросы.

    Все эти вопросы, возможно решать, даже если у вас нет возможности изменить логику представления данных или программировать скрипты Интернет магазина.

    Вы можете спросить меня - как это?

    Что такое csv файл?

    Это текстовый файл, в котором содержится информация, а поля разделяются специальными символами - разделителями. Поэтому и он называется Comma Separated Values - значения, разделённые запятыми.

    Вообще-то в США эти файлы разделяются действительно запятыми, в странах СНГ основным разделителем есть точка с запятой, то есть ; Хотя Вы можете выбрать себе другой уникальный разделитель. Как выбрать себе уникальный разделитель - я отпишу ниже. Конечно, тут есть еще нюансы.

    Этот же csv-файл может быть полезен для операций прайс-листами он-лайн магазина.

    Про эти возможности я описывал в своей предыдущей статье: "Прайс лист Excel: Как удобно работать в Интернет-магазине?"

    Думаю, более удобнее будет для вас показать полезность csv формата на реальных примерах.

    Предположим мне нужно экспортировать все продукты Интернет-магазина для редактирования или для ознакомления.

    Экспортируем данные в csv файл и сохраняем на свой ПК.

    Вы видите, что браузер сам определил, что файл формата csv может быть отрыт программой Microsoft Excel.

    Хорошая новость, что вам не нужен еще дополнительный инструмент для работы с файлом CSV. Чтобы открыть файл вам достаточно даже простой Блокнот или другая программа, которая может читать тексты. А для автоматического преобразования данных в файле подойдет Excel или подобная программа. Например, бесплатный пакет Open Office.

    Обычно, первая строка файла - это список полей, для которых делается экспорт. Вы можете потом удалить их, чтобы они не нарушили ваши данные.

    Следующие данные разбиты по строкам, причем поля отделяются разделителем - то есть специальным символом. В нашем варианте это точка с запятой.

    Некоторые клиенты забывают про специальный разделитель и "попадаются" на этой детали.

    Если у вас в описании товара используются такие символы, попробуйте поставить другой разделитель, который точно не будет использоваться в описании товаров. Например: * или # или другой символ.

    Чтобы открыть файл, просто запустите его в Excel

    Возможные проблемы в таких типах файлов могут возникать в ценах (точка и запятая) для разделения цифр.
    Эти моменты решаются простой функцией автозамены значений полей.

    Теперь, мы получили нужный файл, внесли в нем изменения. Например, поменяли цены для всех товаров на 20 % и хотим закачать его обратно в магазин.

    Как автоматически менять цены на прайс - я описывал в свой статье .

    Как это сделать - очень просто!

    Большинство Интернет-магазинов или больших и серьезных программ используют промежуточный файл сохранения данных - то есть CSV файлы. Будь это 1С Бухгалтерия или Интернет-магазин.

    Как закачать прайс или описание товаров в магазин?
    На примере я покажу, как можно импортировать данные в файле csv в Интернет-магазин.
    Выбираете файл, укажите поля, которые нужно подключить в магазин и нажмите кнопку запуска. Вот и все.

    Поэтому, когда у меня спрашивают, как сделать обмен данными - я всегда предлагаю клиентам попробовать csv файл .
    Этот универсальный файл поможет вам во много раз ускорить все процессы управления Интернет-магазином и его наполнение контентом.

    CSV-файлы предназначены для хранения табличных данных в формате обычных текстовых файлов. Чтобы открыть такой файл не требуется специальной программы для работы с таблицами, достаточно любого простейшего текстового редактора. Этот формат часто используется разного рода скриптами для хранения небольших массивов данных.

    Инструкция

  • Используйте простейший текстовый редактор (например, Блокнот) для «ручного» создания CSV-файла. Если нужен файл, не содержащий каких-либо данных, то просто сохраните пустой документ с расширением csv - например, data.csv.
  • Разделяйте содержимое соседних колонок таблицы запятой, если в файл надо поместить какие-то табличные данные. Само название этого формата (CSV - Comma Separated Values) переводится с английского как «значения, разделенные запятыми». Однако более удобным и поэтому более часто используемым является разделение значений точкой с запятой. Это связано с тем, что в большинстве неанглоязычных стран запятую принято использовать в качестве разделителя целой и дробной частей вещественных чисел.
  • Помещайте в каждую строку CSV-файла только одну строку табличных данных. То есть знак окончания строки является разделителем строк таблицы, содержащейся в таком файле.
  • Используйте табличный редактор, если не хотите создавать CSV-файл самостоятельно. Большинство программ для работы с таблицами могут читать и сохранять данные в этом формате. Например, можно воспользоваться офисным приложением Microsoft Excel 2007. Создав (или открыв) в нем таблицу, которую необходимо сохранить в CSV- файл, щелкните большую круглую кнопку Office в левом верхнем углу окна редактора. В раскрывшемся меню перейдите в раздел «Сохранить как» и выберите нижний пункт - «Другие форматы». Этому пункту меню назначена «горячая клавиша» F12 - можете воспользоваться ей.
  • Раскройте выпадающий список «Тип файлов» и выберите строку «CSV (разделители - запятые)». Затем в поле «Имя файла» введите название, выберите место хранения и нажмите кнопку «Сохранить».
  • Отвечайте утвердительно (кнопки «OK» и «Да») на вопросы, которые Excel задаст дважды перед сохранением файла. Таким способом редактор будет предупреждать, что формат CSV не поддерживает возможности форматирования текстов, использования «книг» и «страниц», формул в ячейках и других опций, доступных в собственных форматах этого табличного редактора.
  • CSV является стандартом де-факто для связи между собой разнородных систем, для передачи и обработки объемных данных с «жесткой», табличной структурой. Во многих скриптовых языках программирования есть встроенные средства разбора и генерации, он хорошо понятен как программистам, так и рядовым пользователям, а проблемы с самими данными в нем хорошо обнаруживаются, как говорится, на глаз.

    История этого формата насчитывает не менее 30 лет. Но даже сейчас, в эпоху повального использования XML, для выгрузки и загрузки больших объемов данных по-прежнему используют CSV. И, несмотря на то, что сам формат довольно неплохо описан в RFC, каждый его понимает по-своему.

    В этой статье я попробую обобщить существующие знания об этом формате, указать на типичные ошибки, а также проиллюстрировать описанные проблемы на примере кривой реализации импорта-экспорта в Microsoft Office 2007. Также покажу, как обходить эти проблемы (в т.ч. автоматическое преобразование типов Excel-ом в DATETIME и NUMBER) при открытии.csv.

    Начнем с того, что форматом CSV на самом деле называют три разных текстовых формата, отличающихся символами-разделителями: собственно сам CSV (comma-separated values — значения, разделенные запятыми), TSV (tab-separated values — значения, разделенные табуляциями) и SCSV (semicolon separated values — значения, разделенные точкой с запятой). В жизни все три могут называться одним CSV, символ-разделитель в лучшем случае выбирается при экспорте или импорте, а чаще его просто «зашивают» внутрь кода. Это создает массу проблем в попытке разобраться.

    Как иллюстрацию возьмем казалось бы тривиальную задачу: импортировать в Microsoft Outlook данные из таблицы в Microsoft Excel.

    В Microsoft Excel есть средства экспорта в CSV, а в Microsoft Outlook — соответствующие средства импорта. Что могло быть проще — сделал файлик, «скормил» почтовой программе и — дело сделано? Как бы не так.

    Создадим в Excel тестовую табличку:

    … и попробуем экспортировать ее в три текстовых формата:

    Какой вывод мы делаем из этого?.. То, что здесь Microsoft называет «CSV (разделители — запятые)», на самом деле является форматом с разделителями «точка с запятой». Формат у Microsoft — строго Windows-1251. Поэтому, если у вас в Excel есть Unicode-символы, они на выходе в CSV отобразятся в вопросительные знаки. Также то, что переводами строк является всегда пара символов, то, что Microsoft тупо берет в кавычки все, где видит точку с запятой. Также то, что если у вас нет Unicode-символов вообще, то можно сэкономить на объеме файла. Также то, что Unicode поддерживается только UTF-16, а не UTF-8, что было бы сильно логичнее.

    Теперь посмотрим, как на это смотрит Outlook. Попробуем импортировать эти файлы из него, указав такие же источники данных. Outlook 2007: Файл -> Импорт и экспорт… -> Импорт из другой программы или файла. Далее выбираем формат данных: «Значения, разделенные запятыми (Windows)» и «Значения, разделенные табуляцией (Windows)».

    Два майкрософтовских продукта не понимают друг друга, у них напрочь отсутствует возможность передать через текстовый файл структурированные данные. Для того, чтобы все заработало, требуются «пляски с бубном» программиста.

    Мы помним, что Microsoft Excel умеет работать с текстовыми файлами, импортировать данные из CSV, но в версии 2007 он делает это очень странно. Например, если просто открыть файл через меню, то он откроется без какого-либо распознавания формата, просто как текстовый файл, целиком помещенный в первую колонку. В случае, если сделать дабл-клик на CSV, Excel получает другую команду и импортирует CSV как надо, не задавая лишних вопросов. Третий вариант — вставка файла на текущий лист. В этом интерфейсе можно настраивать разделители, сразу же смотреть, что получилось. Но одно но: работает это плохо. Например, Excel при этом не понимает закавыченных переводов строк внутри полей.

    Более того, одна и та же функция сохранения в CSV, вызванная через интерфейс и через макрос, работает по-разному. Вариант с макросом не смотрит в региональные настройки вообще.

    Стандарта CSV как такового, к сожалению, нет, но, между тем, существует т.н. memo. Это RFC 4180 2005-го года, в котором описано все довольно толково. За неимением ничего большего, правильно придерживаться хотя бы RFC. Но для совместимости с Excel следует учесть его собенности.

    • между строками — перевод строки CRLF [на мой взгляд, им не стоило ограничивать двумя байтами, т.е. как CRLF (0×0D, 0×0A), так и CR 0×0D]
    • разделители — запятые, в конце строки не должно быть запятой,
    • в последней строке CRLF не обязателен,
    • первая строка может быть строкой заголовка (никак не помечается при этом)
    • пробелы, окружающие запятую-разделитель, игнорируются.
    • если значение содержит в себе CRLF, CR, LF (символы-разделители строк), двойную кавычку или запятую (символ-разделитель полей), то заключение значения в кавычки обязательно. В противном случае - допустимо.
    • т.е. допустимы переводы строк внутри поля. Но такие значения полей должны быть обязательно закавычены,
    • если внутри закавыченной части встречаются двойные кавычки, то используется специфический квотинг кавычек в CSV — их дублирование.

    Вот в нотации ABNF описание формата:

    File = record *(CRLF record) header = name *(COMMA name) record = field *(COMMA field) name = field field = (escaped / non-escaped) escaped = DQUOTE *(TEXTDATA / COMMA / CR / LF / 2DQUOTE) DQUOTE non-escaped = *TEXTDATA COMMA = %x2C DQUOTE = %x22 LF = %x0A CRLF = CR LF TEXTDATA = %x20-21 / %x23-2B / %x2D-7E

    Также при реализации формата нужно помнить, что поскольку здесь нет указателей на число и тип колонок, поскольку нет требования обязательно размещать заголовок, здесь есть условности, о которых необходимо не забывать:

    • строковое значение из цифр, не заключенное в кавычки может быть воспринято программой как числовое, из-за чего может быть потеряна информация, например, лидирующие нули,
    • количество значений в каждой строке может отличаться и необходимо правильно обрабатывать эту ситуацию. В одних ситуациях нужно предупредить пользователя, в других — создавать дополнительные колонки и заполнять их пустыми значениями. Можно определиться, что количество колонок задается заголовком, а можно добавлять их динамически, по мере импорта CSV,
    • Квотить кавычки через «слэш» не по стандарту, делать так не надо.
    • Поскольку типизации полей нет, нет и требования к ним. Разделители целой и дробной частей в разных странах разные, и это приводит к тому, что один и тот же CSV, сгенрированный приложением, в одном экселе «понимается», в другом — нет. Потому что Microsoft Office ориентируется на региональные настройки Windows, а там может быть что угодно. В России там указано, что разделитель — запятая,
    • Если CSV открывать не через меню «Данные», а напрямую, то Excel лишних вопросов не задает, и делает как ему кажется правильным. Например, поле со значением 1.24 он понимает по умолчанию как «24 января»
    • Эксель убивает ведующие нули и приводит типы даже тогда, когда значение указано в кавычках. Делать так не надо, это ошибка. Но чтобы обойти эту проблему экселя, можно сделать небольшой «хак» — значение начать со знака «равно», после чего поставить в кавычках то, что необходимо передать без изменения формата.
    • У экселя есть спецсимвол «равно», который в CSV рассматривается как идентификатор формулы. То есть, если в CSV встретится =2+3, он сложит два и три и результат впишет в ячейку. По стандарту он это делать не должен.

    Пример валидного CSV, который можно использовать для тестов:

    Фамилия, Имя, Адрес, Город/штат, индекс, просто строка Иванов,Иван, Ленина 20, Москва, 08075, "1/3" Tyler, John,110 terrace, PA,20121, "1.24" "Петров ""Кул""", Петя,120 Hambling St., NJ,08075, "1,24" Смирнов,Вася,"7452 Street ""Near the Square"" road", York, 91234, "3-01" ,Миша,Ленинград, 00123, "03-01" "Джон ""Черная голова"", Клод",Рок,"", Маями бич,00111, "0000" Сергей,

    Точно такой же SCSV:

    Фамилия; Имя; Адрес; Город/штат; индекс; просто строка Иванов;Иван; Ленина 20; Москва; 08075;"1/3" Tyler; John;110 terrace; PA; 20121;"1.24" "Петров ""Кул"""; Петя;120 Hambling St.; NJ;08075;"1,24" Смирнов;Вася;"7452 Street ""Near the Square"" road"; York; 91234;"3-01" ;Миша;;Ленинград; 00123;"03-01" "Джон ""Черная голова""; Клод";Рок;""; Маями бич;00111; "0000" Сергей;;

    Первый файлик, который реально COMMA-SEPARATED, будучи сохраненным в.csv, Excel-ом не воспринимается вообще.

    Второй файлик, который по логике SCSV, экселом воспринимается и выходит вот что:

    Ошибки Excel-я при импорте:

    1. Учлись пробелы, окружающие разделители
    2. Последний столбец вообще толком не распознался, несмотря на то, что данные в кавычках. Исключение составляет строка с «Петровым» — там корректно распозналось 1,24.
    3. В поле индекс Excel «опустил» ведущие нули.
    4. в самом правом поле последней строки пробелы перед кавычками перестали указывать на спецсимвол

    Если же воспользоваться функционалом импорта (Данные -> Из файла) и обозвать при импорте все поля текстовыми, то будет следующая картина:

    С приведением типов сработало, но зато теперь не обрабатываются нормально переводы строк и осталась проблема с ведущими нулями, кавычками и лишними пробелами. Да и пользователям так открывать CSV крайне неудобно.

    Есть эффективный способ, как заставить Excel не приводить типы, когда это нам не нужно. Но это будет CSV «специально для Excel». Делается это помещением знака «=» перед кавычками везде, где потенциально может возникнуть проблема с типами. Заодно убираем лишние пробелы.

    Фамилия;Имя;Адрес;Город/штат;индекс;просто строка Иванов;Иван;Ленина 20;Москва;="08075";="1/3" Tyler; John;110 terrace;PA;="20121";="1.24" "Петров ""Кул""";Петя;120 Hambling St.;NJ;="08075";="1,24" Смирнов;Вася;"7452 Street ""Near the Square"" road";York;="91234";="3-01" ;Миша;;Ленинград;="00123";="03-01" "Джон ""Черная голова"";Клод";Рок;"";Маями бич;="00111";="0000" Сергей;;

    И вот что случаеся, если мы открываем этот файлик в экселе:

    Резюмирую.

    Чтобы сгенерировать такой CSV, которым можно было бы пользоваться, пользователю нужно дать возможность сделать следующие настройки перед экспортом:

    1. выбрать кодировку . Как правило, важно UTF-8, UTF-16, Windows-1251, KOI8-R. Чаще всего, других вариантов нет. Одна из них должна идти по умолчанию. В случае, если данные содержат символы, не имеющие аналогов в целевой кодировке, нужно предупреждать пользователя, что данные будут битые;
    2. выбрать разделитель между полями . Варианты — табуляция, запятая, точка с запятой. По умолчанию — точка с запятой. Не забыть, что если разделитель вводится в тексте, то будет очень непросто ввести туда табуляцию, это еще и непечатный символ;
    3. выбрать разделитель между строками (CRLF 0×0D 0×0A или CR 0×0D);
    4. выбрать разделитель целой и дробной части для числовых данных (точка или запятая).
    5. выбрать, выводить ли строку заголовка;
    6. выбрать, каким образом осуществлять квотинг спецсимволов (особенно переводов строк и кавычек). В принципе, можно отступиться от стандарта и квотировать их как \n и \", но нужно в этом случае не забыть квотировать сами \n, если они встретятся и не забыть сделать это опцией при экспорте-импорте. Но совместимость пойдет лесом, потому что любой RFC-стандартный парсер конструкцию...,"abc\«",… посчитает за ошибку;
    7. совсем в идеале — поставить галочку «для Excel» и учитывать там те нестандартности, которые внесла Майкрософт . К примеру, заменять значения числовых полей, «похожих на дату», на конструкцию ="<значение поля>«.
    8. определиться, нужно ли оставлять «хвост» из пустых разделителей , если он образуется. Например, из 20 полей только первое содержит данные, а остальные пустые. В итоге, в строке можно либо ставить после первого 19 разделителей, либо не ставить. Для больших объемов данных это может спасти миллисекунды обработки и уменьшить размер файла.

    Чтобы построить хороший и удобный импортер CSV, необходимо помнить о следующем:

    1. разбор файла нужно делать по лексемам в соответствии с грамматикой выше или пользоваться хорошо зарекомендовавшими себя готовыми библиотеками (Excel работает иначе, потому с импортом проблема);
    2. предоставлять пользователю возможность выбрать кодировку (топ 4 достаточно);
    3. предоставлять пользователю возможность выбрать разделитель между полями (запятая, табуляция, точка с запятой достаточно);
    4. предоставлять пользователю возможность выбрать разделитель между строками , но кроме вариантов CR и CRLF нужно предусмотреть «CR или CRLF». Это связано с тем, что, например, Excel при экспорте таблицы с переводами строк внутри ячеек экспортирует эти переводы строк как CR, а остальные строки разделяет CRLF. При этом при импорте файла ему все равно, CR там или CRLF;
    5. предоставлять пользователю возможность выбрать разделитель между целой и дробной частей (запятая или точка);
    6. определиться с методом разбора — сначала читаем все в память, потом обрабатываем или обрабатываем строку за строкой. В первом случае может понадобиться больше памяти, во втором случае — ошибка в середине вызовет только частичный импорт, что может вызвать проблемы. Предпочительнее первый вариант.

    Рауф Алиев,
    заместитель технического директора Mail.Ru Group