1 2 3 4 5
# coding=utf-8 import re i = re.search(u'\\bשלום\\b', u'שלום עולם', re.U) print i.group(0).encode('ascii','xmlcharrefreplace')
1
שלום