Как разделить строку в python
Перейти к содержимому

Как разделить строку в python

  • автор:

Строковые методы split() и join() в Python

При работе со строками в Python вам может потребоваться разбить строку на подстроки или, наоборот, объединить несколько мелких кусочков в одну большую строку. В этой статье мы рассмотрим методы split() и join(), которые как раз и используются для разделения и объединения строк. Мы на примерах разберем, как они помогают легко выполнять необходимые нам задачи.

Важно отметить, что поскольку строки в Python неизменяемы, вы можете вызывать для них методы, не изменяя исходные строки. Итак, давайте начнем!

Метод split()

Когда вам нужно разбить строку на подстроки, вы можете использовать метод split().

Метод split() принимает строку и возвращает список подстрок. Синтаксис данного метода выглядит следующим образом:

Здесь – любая допустимая строка в Python, а sep – это разделитель, по которому вы хотите разделить исходную строку. Его следует указывать в виде строки.

Например, если вы хотите разделить по запятым, нужно установить sep = «,» .

sep – необязательный аргумент. По умолчанию метод split() разбивает строки по пробелам.

maxsplit – еще один опциональный аргумент, указывающий, сколько раз вы хотите разделить исходную строку . По умолчанию maxsplit имеет значение -1. При таком значении метод разбивает строку по всем вхождениям параметра sep.

Если вы хотите разделить исходную строку на две части, по первому вхождению запятой, вы можете установить maxsplit = 1 . Так вы получите две подстроки: части исходной строки до и после первой запятой.

Таким образом, при одном разрезе строки вы получаете 2 подстроки. При двух разрезах — 3 подстроки. то есть, разрезая строку k раз, вы получите k+1 фрагментов.

Давайте рассмотрим несколько примеров, чтобы увидеть метод split() в действии.

Примеры использования метода split() в Python

Зададим строку my_string , как это показанного ниже. После этого вызовем метод split() для my_string без аргументов sep и maxsplit .

my_string = "I code for 2 hours everyday" my_string.split() # ['I', 'code', 'for', '2', 'hours', 'everyday']

Вы можете видеть, что my_string разделена по всем пробелам. Метод возвращает список подстрок.

Рассмотрим следующий пример. Здесь my_string содержит названия фруктов, разделенные запятыми.

Давайте разделим my_string по запятым. Для этого нужно установить sep = «,» или просто передать в метод «,» при вызове.

my_string = "Apples,Oranges,Pears,Bananas,Berries" my_string.split(",") # ['Apples', 'Oranges', 'Pears', 'Bananas', 'Berries']

Как и ожидалось, метод split() вернул список фруктов, где каждый фрукт из my_string стал элементом списка.

Теперь давайте воспользуемся необязательным аргументом maxsplit и установив его равным 2.

my_string.split(",", 2) # ['Apples', 'Oranges', 'Pears,Bananas,Berries']

Попробуем разобрать получившийся список.

Напомним, что my_string = «Apples,Oranges,Pears,Bananas,Berries» , и мы решили разделить эту строку по запятым «,» .

Первая запятая стоит после Apples , и после первого разделения у нас будет две подстроки: Apples и Oranges,Pears,Bananas,Berries .

Вторая запятая стоит после Oranges . Таким образом, после второго деления у нас будет уже три подстроки: Apples , Oranges и Pears,Bananas,Berries .

Сделав два разреза строки, мы достигли установленного максимума, и дальнейшее деление невозможно. Поэтому часть строки после второй запятой объединяется в один элемент в возвращаемом списке.

Надеюсь, теперь вы понимаете, как работает метод split() и для чего нужны аргументы sep и maxsplit .

Метод join()

Теперь, когда вы знаете, как разбить строку на подстроки, пора научиться использовать метод join() для формирования строки из подстрок.

Синтаксис метода Python join() следующий:

Здесь – любой итерируемый объект Python, содержащий подстроки. Это может быть, например, список или кортеж. – это разделитель, с помощью которого вы хотите объединить подстроки.

По сути, метод join() объединяет все элементы в , используя в качестве разделителя.

А теперь пора примеров!

Примеры использования метода join() в Python

В предыдущем разделе мы разбивали строку my_string по запятым и получали в итоге список подстрок. Назовем этот список my_list .

Теперь давайте сформируем строку, объединив элементы этого списка при помощи метода join(). Все элементы в my_list – это названия фруктов.

my_list = my_string.split(",") # после разделения my_string мы получаем my_list: # ['Apples', 'Oranges', 'Pears', 'Bananas', 'Berries']

Обратите внимание, что разделитель для присоединения должен быть указан именно в виде строки. В противном случае вы столкнетесь с синтаксическими ошибками.

Чтобы объединить элементы в my_list с использованием запятой в качестве разделителя, используйте «,» а не просто , . Это показано во фрагменте кода ниже.

", ".join(my_list) # Output: Apples, Oranges, Pears, Bananas, Berries

Здесь элементы my_list объединяются в одну строку с помощью запятых, за которыми следуют пробелы.

Разделитель может быть любым.

Давайте для примера используем в качестве разделителя 3 символа подчеркивания ___ .

"___".join(my_list) # Output: Apples___Oranges___Pears___Bananas___Berries

Элементы в my_list теперь объединены в одну строку и отделены друг от друга тремя подчеркиваниями ___ .

Теперь вы знаете, как сформировать одну строку из нескольких подстрок с помощью метода join().

Заключение

Итак, мы рассмотрели строковые методы split() и join(). Из этой статьи вы узнали следующее:

  • .split (sep, maxsplit) разбивает исходную строку по вхождениям разделителя sep , maxsplit раз.
  • .join() объединяет подстроки в итерируемый объект , используя в качестве разделителя.

Надеюсь, вам была полезна данная статья. Успехов в написании кода!

Более 50 задач на строки в нашем телеграм канале Python Turbo. Уютное сообщество Python разработчиков.

Функции разбивки строк на части и образования новых строк с помощью кортежей и списков

Функция str.join() возвращает строку, которая есть объединением строк в итерированном объекте. Если в итерированнм объекте есть не строчные значения, то функция сгенерирует исключение TypeError.

В соответствии с документацией Python использование функции имеет следующую форму:

s1 = s2.join(iterable)
  • s1 – строка, которая создается в результате объединения строк итерированного объекта iterable ;
  • s2 – строка, которая служит разделителем при объединении строк.

Пример.

# Функція str.join() - сборка строки из списка # Список строк lst = ['abc', 'def', 'ghi'] s1 = '' s2 = s1.join(lst) # s2 = 'abcdefghi' # Список символов SYMBOLS = list("Hello") # ITEMS = ['H', 'e', 'l', 'l', 'o'] s1 = "" s3 = s1.join(SYMBOLS) # s3 = 'Hello' s4 = str.join(s1, SYMBOLS) # s4 = 'Hello' # Разделитель - строка ' => ' s1 = ' => ' s5 = s1.join(['012', '345', '678']) # s5 = '012 => 345 => 678'
2. Функция str.partition() . Разбить строку на кортеж начиная с начала строки

Функция str.partition() разбивает строку на кортеж из 3-х элементов на основе заданного символа-разделителя. В отличие от функции str.rpartition() в данной функции строка пересматривается от начала до конца.

Общая форма использования функции следующая:

t = str.partition(sep)
  • str – строка, которая рассматривается на предмет разбиения;
  • t – результирующий кортеж, состоящий из 3-х строк. Первая строка – это часть строки перед разделителем sep . Вторая строка – это сам разделитель sep . Третья строка – это часть строки после разделителя sep ;
  • sep – символ-разделитель.

Если разделитель не найден, то функция возвращает кортеж из 3-х строк, в котором первым следует сама строка, затем две пустых строки.

Пример.

# Функция str.partition() - разбивает строку на основе символа-разделителя # 1. Случай, когда разделитель найден s1 = 'abc,def,ghi' s2 = s1.partition(',') # s2 = ('abc', ',', 'def,ghi') s2 = 'abcdef'.partition('d') # s2 = ('abc', 'd', 'ef') s1 = '012+345' s2 = str.partition(s1, '+') # s2 = ('012', '+', '345') # 2. Случай, когда разделитель не найден s1 = '12345' s2 = s1.partition('=') # s2 = ('12345', '', '') # 3. Случай, когда есть несколько разделителей - строка пересматривается сначала s1 = '012+345+65+89' s2 = s1.partition('+') # s2 = ('012', '+', '345+65+89')
3. Функция str.rpartition() . Разбить строку на кортеж начиная с конца строки

Функция str.rpartition() разбивает строку на кортеж из 3-х элементов на основе заданного символа-разделителя. В отличие от функции str.partition() в данной функции строка пересматривается с конца.

Общая форма использования функции следующая:

t = str.rpartition(sep)
  • str – строка, которая рассматривается на предмет разбиения;
  • t – результирующий кортеж, состоящий из 3-х строк. Первая строка – это часть строки перед разделителем sep . Вторая строка – это сам разделитель sep . Третья строка – это часть строки после разделителя sep ;
  • sep – символ-разделитель.

Если разделитель не найден, то функция возвращает кортеж из 3-х строк, в котором первые две строки пустые, третья строка – сама строка.

Пример.

# Функция str.rpartition() - разбивает строку на основе символа-разделителя # 1. Случай, когда разделитель найден s1 = 'abc,def,ghi' s2 = s1.rpartition(',') # s2 = ('abc,def', ',', 'ghi') s2 = 'abcdef'.rpartition('d') # s2 = ('abc', 'd', 'ef') s1 = '012+345' s2 = str.rpartition(s1, '+') # s2 = ('012', '+', '345') # 2. Случай, когда разделитель не найден s1 = '12345' s2 = s1.rpartition('=') # s2 = ('', '', '12345') # 3. Случай, когда несколько разделителей - строка пересматривается с конца s1 = '012+345+65+89' s2 = s1.rpartition('+') # s2 = ('012+345+65', '+', '89')
4. Функция str.rsplit() . Сформировать список слов на основе символа-разделителя

Функция str.rsplit() формирует список слов, сформированных из некоторой строки на основе символа-разделителя. Функция работает также как и функция str.split() только с тем отличием, что сформированные слова разделяются справа налево.

Общая форма использования функции следующая:

setStr = str.rsplit(sep = None, maxsplit = -1)
  • setStr – результирующий список строк (слов), которые формируются из строки str ;
  • str – исходная строка, которая разбивается на множество слов;
  • sep – разделитель слов, который может состоять из одного или нескольких символов. Если задан разлелитель sep , то сами разделители не группируются вместе и считаются разделителями пустых строк. Если попробовать разделить пустую строку заданным разделителем, то возвращается список, содержащий пустую строку [»] ;
  • maxsplit – максимальное количество разбивок, на которое может быть разбита строка str . Например, если maxsplit =2, то список будет содержать не более 3 элементов ( maxsplit +1 элементов). Если значение maxsplit не указано или равно -1, то количество разделений неограничено, в этом случае выполняются все возможные разбивки строки.

Пример.

# Функция str.rsplit() - разбивка строки по символу-разделителю # 1. Вызов функции без параметров sep и maxsplit s1 = 'a,b,c,d' s2 = s1.rsplit() # s2 = ['a,b,c,d'] - одно слово, принимается ко вниманию пробел s1 = 'a b c def' s2 = s1.rsplit() # s2 = ['a', 'b', 'c', 'def'] - 4 слова, учтен пробел s1 = 'abc hello,+ fgh 0123 ' s2 = str.rsplit(s1) # s2 = ['abc', 'hello,+', 'fgh', '0123'] # 2. Вызов функции с параметром sep s1 = 'a,b,c,d' s2 = s1.rsplit(',') # s2 = ['a', 'b', 'c', 'd'], символ-разделитель ',' # символ-разделитель '!=' s2 = 'a!=b!=c!=d+5'.rsplit('!=') # s2 = ['a', 'b', 'c', 'd+5'] # 3. Вызов функции с параметрами sep, maxsplit # при таком вызове результат функции отличается от результата split() s1 = 'a,b,c,d,e' s2 = s1.split(',', 2) # s2=['a', 'b', 'c,d,e'] - от начала до конца s3 = s1.rsplit(',', 2) # s3=['a,b,c', 'd', 'e'] - с конца до начала s1 = 'a+b+c+d' s2 = s1.split('+', 2) # s2 = ['a', 'b', 'c+d'] - от начала до конца s3 = s1.rsplit('+', 2) # s3 = ['a+b', 'c', 'd'] - с конца до начала
5. Функция str.split() . Разбивка строки по символу-разделителю

Функция str.split() получает строку и возвращает список слов, сформированных из этой строки, которые разделяются (выделяются) указанным символом-разделителем.

Согласно документации Python общая форма использования функции следующая:

setStr = str.split(sep = None, maxsplit = -1)
  • setStr – результирующий список строк (слов), формируемых из строки str ;
  • str – исходная строка, которая разбивается на множество слов;
  • sep – разделитель слов, который может состоять из одного или нескольких символов. Если указан разделитель sep , то сами разделители не группируются вместе и считаются разделителями пустых строк. Если попробовать разделить пустую строку указанным разделителем, то возвращается список, содержащий пустую строку [»] ;
  • maxsplit – максимальное количество разбивок, на которое может быть разбита строка str . Например, если maxsplit =2, то список будет содержать не более 3 элементов ( maxsplit +1 элементов). Если значение maxsplit не указано или равно -1, то количество разбивок неограничено, в этом случае выполняются все возможные разбивки строки.

Пример.

# Функция str.split() - разбивка строки по символу-разделителю # 1. Вызов функции без параметров sep и maxsplit s1 = 'a,b,c,d' s2 = s1.split() # s2 = ['a,b,c,d'] - одно слово, принимается ко вниманию пробел s1 = 'a b c def' s2 = s1.split() # s2 = ['a', 'b', 'c', 'def'] - 4 слова, учитывается пробел s1 = 'abc hello,+ fgh 0123 ' s2 = str.split(s1) # s2 = s2 = ['abc', 'hello,+', 'fgh', '0123'] # 2. Вызов функции с параметром sep s1 = 'a,b,c,d' s2 = s1.split(',') # s2 = ['a', 'b', 'c', 'd'], символ-разделитель ',' # символ-разделитель '==' s2 = 'a==b==c==d+5'.split('==') # s2 = ['a', 'b', 'c', 'd+5'] # 3. Вызов функции с параметрами sep, maxsplit s1 = 'a,b,c,d,e' s2 = s1.split(',', 2) # s2=['a', 'b', 'c,d,e'] - максимум 2 разбивки (3 слова) s1 = 'a+b+++c+def++ghi' s2 = s1.split('+',3) # s2=['a', 'b', '', '+c+def++ghi'] - символ '+' заменен на ''
6. Функция str.splitlines() . Получить список строк на основе строки, которая содержит символы-разделители строк

Функция str.splitlines() формирует список строк на основе заданной строки таким образом, что учитываются символы которые служат разделителями строки.

Согласно документации Python общая форма использования функции следующая:

strList = str.splitlines([keepends])
  • strList – результирующий список строк разделенных на границах строки;
  • str – строка, содержащая символы, которые разделяют строки. К таким символам относятся, например, символ ‘\n’ новой строки (см. ниже таблицу);
  • keepends – необязательный параметр, который определяет включение символов-разделителей в результирующую строку strList . Если keepends = True , то символы-разделители включаются в результирующую строку.

Символы, на основе которых осуществляется разделение строки приведены в нижеследующей таблице

Python. Символы-разделители в строке

Пример.

# Функция str.splitlines() # 1. Вызов функции без параметров s1 = 'ab\ncd\ref' s2 = s1.splitlines() # s2 = ['ab', 'cd', 'ef'] s1 = '012\x1d345\x1e6789' s2 = str.splitlines(s1) # s2 = ['012', '345', '6789'] s2 = 'abc\u2028defg'.splitlines() # s2 = ['abc', 'defg'] # 2. Вызов функции с параметром - включены символы-разделители s1 = 'ab\ncd\r\nef' s2 = s1.splitlines(True) # s2 = ['ab\n', 'cd\r\n', 'ef'] s2 = 'abc\u2029def'.splitlines(True) # s2 = ['abc\u2029', 'def'] s2 = '\n\n\r\n'.splitlines(False) # s2 = ['', '', ''] s2 = '\n\n\r\n'.splitlines(True) # s2 = ['\n', '\n', '\r\n']

Связанные темы

  • Функции для работы со строками, определяющие особенности строки
  • Функции поиска и замены подстроки в строке
  • Функции обрабатывающие и определяющие начало и конец строки
  • Функции обработки строки в соответствии с форматом или правилом кодирования. Стили форматирования
  • Функции выравнивания строк
  • Функции обрабатывающие регистр символов в строке

Разделить строку по совпадениям регулярного выражения

Метод Pattern.split() разбивает строку на части везде, где есть совпадения с регулярным выражением, указанным в качестве разделителя и возвращает список частей строки. Он похож на метод str.split() для строк, но обеспечивает гораздо большую гибкость в составлении разделителей. Метод str.split() поддерживает только разделение пробелами или фиксированной строкой.

Pattern.split(string [, maxsplit=0]) 

Метод Pattern.split() делит строку string по соответствиям регулярного выражения. Если в регулярном выражении используются захватывающие скобки, то их содержимое также будет возвращено как часть результирующего списка. Можно ограничить количество выполненных разбиений, передав значение maxsplit . Если maxsplit не равен нулю, то выполняется не более maxsplit делений, а оставшаяся часть строки будет возвращена в качестве последнего элемента списка. В следующем примере разделителем является любая последовательность не буквенно-цифровых символов.

>>> p = re.compile(r'\W+') >>> p.split('This is a test, short and sweet, of split().') # ['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', ''] >>> p.split('This is a test, short and sweet, of split().', 3) # ['This', 'is', 'a', 'test, short and sweet, of split().'] 

Иногда необходимо знать какой текст в строке совпал с регулярным выражением, указанном в качестве разделителя. Если в шаблоне используются захватывающие скобки, то их значения также возвращаются как часть списка.

>>> p = re.compile(r'\W+') >>> p2 = re.compile(r'(\W+)') >>> p.split('This. is a test.') # ['This', 'is', 'a', 'test', ''] >>> p2.split('This. is a test.') # ['This', '. ', 'is', ' ', 'a', ' ', 'test', '.', ''] 

Функция re.split() уровня модуля re получает строку регулярного выражения в качестве первого аргумента, но в остальном она такая же.

>>> re.split('[\W]+', 'Words, words, words.') # ['Words', 'words', 'words', ''] >>> re.split('([\W]+)', 'Words, words, words.') # ['Words', ', ', 'words', ', ', 'words', '.', ''] >>> re.split('[\W]+', 'Words, words, words.', 1) # ['Words', 'words, words.'] 
  • ОБЗОРНАЯ СТРАНИЦА РАЗДЕЛА
  • Символьные классы и сокращенные обозначения классов
  • Повторение набора символов в регулярном выражении
  • Компиляция регулярных выражений
  • Обратный слеш в регулярных выражениях Python
  • Методы скомпилированного регулярного выражения
  • Функции уровня модуля re
  • Флаги объекта регулярного выражения
  • Метасимволы нулевой ширины в RegExp Python
  • Группы с захватом в регулярных выражениях Python
  • Обратные ссылки регулярного выражения
  • Именованные группы регулярных выражениях Python
  • Группы без захвата в регулярных выражениях
  • Опережающая и ретроспективная проверка позиции в RegExp
  • Деление строки по регулярному выражению
  • Поиск и замена по регулярному выражению
  • re.match() VS re.search()
  • Жадный квантификатор против не жадного

Python разделить строку на списки

В этой статье мы расскажем, как можно разбивать строки на списки. Вы узнаете, как при этом использовать разделители (в частности — как отделять часть строки только по первому разделителю и как быть с последовательно идущими разделителями) и регулярные выражения. Безусловно, эта информация будет особенно полезна начинающим питонистам, но, возможно, и более опытные найдут для себя кое-что интересное.

Простое разделение строки и получение списка ее составляющих

Если вы хотите разбить любую строку на подстроки и составить из них список, вы можете просто воспользоваться методом split(sep=None, maxsplit=-1) . Этот метод принимает два параметра (опционально). Остановимся пока на первом из них — разделителе ( sep ).

Разделитель можно задать явно в качестве параметра, но можно и не задавать: в этом случае в его роли выступает пробел.

Пример использования метода split() без указания разделителя:

print("Python2 Python3 Python Numpy".split()) print("Python2, Python3, Python, Numpy".split())
['Python2', 'Python3', 'Python', 'Numpy'] ['Python2,', 'Python3,', 'Python,', 'Numpy']

Разделение строки с использованием разделителя

Python может разбивать строки по любому разделителю, указанному в качестве параметра метода split() . Таким разделителем может быть, например, запятая, точка или любой другой символ (или даже несколько символов).

Давайте рассмотрим пример, где в качестве разделителя выступает запятая и точка с запятой (это можно использовать для работы с CSV-файлами).

print("Python2, Python3, Python, Numpy".split(',')) print("Python2; Python3; Python; Numpy".split(';'))
['Python2', ' Python3', ' Python', ' Numpy'] ['Python2', ' Python3', ' Python', ' Numpy']

Как видите, в результирующих списках отсутствуют сами разделители.

Если вам нужно получить список, в который войдут и разделители (в качестве отдельных элементов), можно разбить строку по шаблону, с использованием регулярных выражений (см. документацию re.split). Когда вы берете шаблон в захватывающие круглые скобки, группа в шаблоне также возвращается как часть результирующего списка.

import re sep = re.split(',', 'Python2, Python3, Python, Numpy') print(sep) sep = re.split('(,)', 'Python2, Python3, Python, Numpy') print(sep)
['Python2', ' Python3', ' Python', ' Numpy'] ['Python2', ',', ' Python3', ',', ' Python', ',', ' Numpy']

Если вы хотите, чтобы разделитель был частью каждой подстроки в списке, можно обойтись без регулярных выражений и использовать list comprehensions:

text = 'Python2, Python3, Python, Numpy' sep = ',' result = [x+sep for x in text.split(sep)] print(result)
['Python2,', ' Python3,', ' Python,', ' Numpy,']

Разделение многострочной строки (построчно)

Создать список из отдельных строчек многострочной строки можно при помощи того же метода split() , указав в качестве разделителя символ новой строки \n . Если текст содержит лишние пробелы, их можно удалить при помощи методов strip() или lstrip() :

str = """ Python is cool Python is easy Python is mighty """ list = [] for line in str.split("\n"): if not line.strip(): continue list.append(line.lstrip()) print(list)
['Python is cool', 'Python is easy', 'Python is mighty']

Разделение строки-словаря и преобразование ее в списки или словарь

Допустим, у нас есть строка, по сути являющаяся словарем и содержащая пары ключ-значение в виде key => value . Мы хотим получить эти пары в виде списков или настоящего словаря. Вот простой пример, как получить словарь и два списка:

dictionary = """\ key1 => value1 key2 => value2 key3 => value3 """ mydict = <> listKey = [] listValue = [] for line in dictionary.split("\n"): if not line.strip(): continue k, v = [word.strip() for word in line.split("=>")] mydict[k] = v listKey.append(k) listValue.append(v) print(mydict) print(listKey) print(listValue)
 ['key1', 'key2', 'key3'] ['value1', 'value2', 'value3']

Отделение указанного количества элементов

Метод split() имеет еще один опциональный параметр — maxsplit . С его помощью можно указать, какое максимальное число «разрезов» нужно сделать. По умолчанию maxsplit=-1 , это означает, что число разбиений не ограничено.

Если вам нужно отделить от строки несколько первых подстрок, это можно сделать, указав нужное значение maxsplit . В этом примере мы «отрежем» от строки первые три элемента, отделенные запятыми:

str = "Python2, Python3, Python, Numpy, Python2, Python3, Python, Numpy" data = str.split(", ",3) for temp in data: print(temp)
Python2 Python3 Python Numpy, Python2, Python3, Python, Numpy

Разделение строки при помощи последовательно идущих разделителей

Если вы для разделения строки используете метод split() и не указываете разделитель, то разделителем считается пробел. При этом последовательно идущие пробелы трактуются как один разделитель.

Но если вы указываете определенный разделитель, ситуация меняется. При работе метода будет считаться, что последовательно идущие разделители разделяют пустые строки. Например, ‘1,,2’.split(‘,’) вернет [‘1’, », ‘2’] .

Если вам нужно, чтобы последовательно идущие разделители все-таки трактовались как один разделитель, нужно воспользоваться регулярными выражениями. Разницу можно видеть в примере:

import re print('Hello1111World'.split('1')) print(re.split('1+', 'Hello1111World' ))
['Hello', '', '', '', 'World'] ['Hello', 'World']

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *