From f0102682ece130382500f0ee58fbc3340f221d54 Mon Sep 17 00:00:00 2001 From: Leonard Richardson Date: Tue, 3 Jul 2012 17:25:28 -0400 Subject: When sniffing encodings, if the cchardet library is installed, use it instead of chardet. It's much faster. [bug=1020748] --- bs4/tests/test_soup.py | 12 +++++++----- 1 file changed, 7 insertions(+), 5 deletions(-) (limited to 'bs4/tests/test_soup.py') diff --git a/bs4/tests/test_soup.py b/bs4/tests/test_soup.py index 4b5bab8..0d04558 100644 --- a/bs4/tests/test_soup.py +++ b/bs4/tests/test_soup.py @@ -138,12 +138,12 @@ class TestEncodingConversion(SoupTest): def setUp(self): super(TestEncodingConversion, self).setUp() - self.unicode_data = u"Sacr\N{LATIN SMALL LETTER E WITH ACUTE} bleu!" + self.unicode_data = u'Sacr\N{LATIN SMALL LETTER E WITH ACUTE} bleu!' self.utf8_data = self.unicode_data.encode("utf-8") # Just so you know what it looks like. self.assertEqual( self.utf8_data, - b"Sacr\xc3\xa9 bleu!") + b'Sacr\xc3\xa9 bleu!') def test_ascii_in_unicode_out(self): # ASCII input is converted to Unicode. The original_encoding @@ -262,10 +262,12 @@ class TestUnicodeDammit(unittest.TestCase): doc = b"""\357\273\277 \330\250\330\252\330\261 \310\322\321\220\312\321\355\344""" - chardet = bs4.dammit.chardet + chardet = bs4.dammit.chardet_dammit logging.disable(logging.WARNING) try: - bs4.dammit.chardet = None + def noop(str): + return None + bs4.dammit.chardet_dammit = noop dammit = UnicodeDammit(doc) self.assertEqual(True, dammit.contains_replacement_characters) self.assertTrue(u"\ufffd" in dammit.unicode_markup) @@ -274,7 +276,7 @@ class TestUnicodeDammit(unittest.TestCase): self.assertTrue(soup.contains_replacement_characters) finally: logging.disable(logging.NOTSET) - bs4.dammit.chardet = chardet + bs4.dammit.chardet_dammit = chardet def test_sniffed_xml_encoding(self): # A document written in UTF-16LE will be converted by a different -- cgit v1.2.3