PHP

ㅎ에서도 정확하게 is_utf8 판단하는 함수

조회 467회 댓글 0건

euc-kr을 사용하게 되면 간혹 utf-8 문자인지 확인해 봐야 하는 경우가 생기곤 한다.

이때 정확하게 utf-8을 체크하면 좋을텐데... ㅎ 부분에서 그렇지 못한것을 발견하게 된다.

많이 알려진 방법들이 죄다 그렇다.

정확하게 판단하는것은 인코딩을 했다가 다시 원복했을때 같은지 판단하는 방법이 정확한데 방법은 아래와 같다.

$string = '획'; 으로 테스트 해보면 무슨 말인지 알것이다. 난 어디가지 utf-8 코드가 있고 이런것 까지 알고 싶지 않다.

분명한것은 한글코드의 뒤쪽(히흥)에서 utf-8과 겹치는 부분이 있기 때문에 이런 문제가 발생 한다는 것이다.

  // 비교하는 방법은 아래와 같은 형태로 하는 것입니다.
  $str_utf8   = mb_convert_encoding($str, 'utf-8', 'euc-kr');
  $str_euckr  = mb_convert_encoding($str_utf8, 'euc-kr', 'utf-8');
  return ( $str == $str_euckr ) ? true:false;

아래 방식은 모두 utf8로 제대로 체크 하지 못하는것들이다. 테스트를 해보면 알것이다.

$isUTF8 = preg_match('//u', $string);

$validUTF8 = ! (false === mb_detect_encoding($string, 'UTF-8', true));

$validUTF8 = ( strlen($string) === strlen(@iconv('UTF-8', 'UTF-8//IGNORE', $string)) ) ? true:false;

// Returns true if $string is valid UTF-8 and false otherwise.

function is_utf8($string) {

// From http://w3.org/International/questions/qa-forms-utf-8.html

return preg_match('%^(?:

[\x09\x0A\x0D\x20-\x7E] # ASCII

| [\xC2-\xDF][\x80-\xBF] # non-overlong 2-byte

| \xE0[\xA0-\xBF][\x80-\xBF] # excluding overlongs

| [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2} # straight 3-byte

| \xED[\x80-\x9F][\x80-\xBF] # excluding surrogates

| \xF0[\x90-\xBF][\x80-\xBF]{2} # planes 1-3

| [\xF1-\xF3][\x80-\xBF]{3} # planes 4-15

| \xF4[\x80-\x8F][\x80-\xBF]{2} # plane 16

)*$%xs', $string);

} // function is_utf8

** 참고 할 것 **

불필요한 바이너리 같은것이 들어 있다고 판단 되는 경우 같은 캐릭터셋으로 변경하여 확인하는 방식의 필터링으로 utf-8을 utf-8로 변환하는 방식을 사용하기도 합니다.

관련링크

전체 193건 1 페이지

HTML to TXT(html2txt) 태그를 삭제 후 텍스트만 반환

내장함수에 strip_tags 라는 것이 있습니다.HTML을 삭제하고 txt만 남기죠. 그리고 나서 공백이 2개 이상이거나 줄바꿈이 필요 없거나 탭 같은것은 별도 삭제를 해줘야 합니다.여기서 다루는 함수는 자바스크립트등 몇가지를 더 삭제해 주는 기능입니다.결과 확인 후 본인에게 맞지 않으면 좀 더 추가 해야 될 수 있는데 요즘은 GPT4 이용하면 도움이 많이 됩니다. /** * html2txt * * @param mixed $d…
페이지 수집할때 많이 사용하는 형태의 curl

사이트의 페이지를 소켓방식으로 수집할때 많이 사용하는 curl 클래스 입니다.본인의 상황에 따라서 좀더 조건을 줘서 처리를 하면 되며 쿠키를 저장해서 다시 보내줘야 한 다면 이 부분에 대한 주석 처리 된것을 풀어서 테스트 해보면 됩니다.중요한것은 HTTP 프로토콜에 대한 명확한 이해가 가장 중요합니다.원리를 모르는 상태에서 사용을 하다보면 헛발질을 많이 할 수 밖에 없기 때문이죠~코딩을 잘 한다는 것은 깔끔하게 재사용가능하게 하는 것도 중요하지…
[AWS] SES API + PEAR MIME 라이브러리 활용하는 방법

AWS SES API를 활용하면서 PEAR 라이브러리 활용할 필요가 있을 때 사용하면 되지만 일반적으로는 사용할 필요는 없습니다.하지만 필요한 분이 있을 수 있어 예전 소스중에 있어 올립니다. 1) PEAR 설치 사용하는 PHP 버전의 경로를 지정해서 설치 해야 한다. wget https://pear.php.net/go-pear.phar /usr/local/php82/bin/php go-pear.phar /usr/local/php82/bin/p…
[AWS] SES API를 통한 메일 발송 클래스

AWS에서 메일을 발송하는 방법에는 SMTP 설정을 통한 방법이 있고 다른 하나는 API를 이용한 방법이 있는데여기에선 API를 이용한 방법에 대한 예 입니다.보통 간단하게 조금 보낼때는 관계 없는데 많이 보내게 되면 AWS 비용이 비싸고 반송 메일에 따라 좋지 않으면 패널티도 받기 때문에 AWS 이용은 많이 안하는 편입니다.대량메일 발송서비스만 전문으로 해주는곳을 이용하거나 직접 구축하여 발송을 하게 됩니다.한달 몇 천건 정도면 이것 이용해도…
OpenSSL 라이브러리 없이 PHP로만 구현된 간단한 암호화

간혹 PHP만 설치해서 사용하고 최대한 라이브러리 설치 하지 않게 사용하면서 간단하게 암호화할 필요가 있을 경우 사용 합니다. 가능하면 OpenSSL 라이브러리 사용하는 암호화 방식을 추천 합니다. 그리고 어떤 방식이든 대칭형 암호화에서 키는 가능하면 길게 만들고 여기선 md5 사용 했지만 sha512 같은것 사용하면 더 좋고 시간, 또는 일마다 같은 문자도 암호화 결과가 다르게 만드는것이 좋습니다. 그 부분은 개인의 상황에 맞게 별도의 메소…
PHP 크롬 웹브라우저를 이용한 크롤링

다른 언어에선 셀레리움을 많이 사용하는듯 한데 PHP에서 페이스북에서 만든 웹드라이브를 사용합니다.설치는 어렵지 않으며 여기선 윈도우용 PHP가 이미 설치 되어 있다고 가정하고 웹드라이브 설치 하는것 부터 진행 합니다.▷ 윈도우용 컴포저 다운로드https://getcomposer.org/Composer-Setup.exe▷ 필요한 라이브러리 설치composer require php-webdriver/webdrivercomposer require …
PHP에서 빈 객체를 생성하는 데 사용할 수 있는 여러 방법

객체를 생성하는 각 방법은 사용하는 상황과 개발자의 선호도에 따라 다를 수 있는데 생성 하는 방법에는 아래와 같은 것들이 있습니다. $obj = new stdClass(); // 기본 클래스 $obj = (object) null; // (object) 변환 $obj = (object)[]; // 빈 배열을 object로 변환 $obj = new class {}; // 익명클래스 - php7 이상 new stdC…