Extraigo de I’m Mike un artí­culo bastante interesante 5 expresiones regulares (también llamadas regexp) que deberí­as conocer si eres programador web.

Bien es sabido por los que me conocen que considero las expresiones regulares como uno de los mejores método que se han inventado para los programadores (y en general, para cualquier persona que quiera comprobar si una cadena de caracteres cumple ciertas caracterí­sticas y posibilidades). Como definió @acidonitrix en su momento: en todas las empresas hay algún loco que le encantan las expresiones regulares; pues bien, ¡ese es mi caso! (Ya me lo haré mirar algún dí­a, pero de momento no molesta)

Pues bien, las 5 expresiones que Mike comenta son las siguientes

Comprobar un nombre de usuario

Esta es la más sencilla de todas. Comprueba si el nombre de usuario está compuesto únicamente por letras, mayúsculas o minúsculas, números de 0 a 9 o el guión bajo (underscore) y cuya longitud total sea entre 3 y 16 caracteres.

/^[a-zA-Z0-9_]{3,16}$/

Buscar una etiqueta HTML/XHTML

Partiendo del ejemplo de querer buscar la etiqueta tag aquí­ coincido con Mike en que la mejor forma (de las varias y farragosas que existen) es usar lo que se denomina un «cuantificador vago» (lazy quantifier) para obtener todo el contenido de la etiqueta.

/]*>(.*?)<\/tag>/

Existen otras soluciones, pero ninguna tan directa como esta. Podrí­amos buscar el contenido por [^>]*, pero eso nos obligarí­a a post-procesar el resultado ya que es posible que dentro de esa etiqueta tengamos otra.

Buscar una etiqueta HTML/XHTML con cierto atributo y valor en su interior

Esta expresión es algo más compleja y usa las referencias (matching backreference) que son los \\1 y \\2 para buscar el tag y la comilla o las dobles comillas que cierran el valor del atributo. Este truco también se podí­a haber usado antes, pero yo creo que queda más claro así­.

Para este ejemplo, supongamos que se quiere buscar la etiqueta tag, el atributo attribute y el valor value:

/]*attribute\s*=\s*(["'])value\\2[^>]*>(.*?)<\/\\1>/

Cuando incluyáis esta regexp en PHP, tened cuidado en escapar una de las dos, según el carácter que uséis para crear la cadena de texto. Por ejemplo:

preg_match('/]*attribute\s*=\s*(["\'])value\\2[^>]*>(.*?)<\/\\1>/', $text, $matches)

Tengo que reconocer que esta expresión como esta no la he usado apenas. Las veces que he tenido que buscar algún atributo, solí­a ser más de uno o más complejo que una simple asignación y, partiendo del ejemplo anterior, el de buscar una etiqueta HTML/XHTML, procesaba el resultado.

Comprobar una dirección de correo electrónico

Esto ya son palabras mayores. La solución que se plantea, dada por Cal Henderson, cumple con la RFC 822 que define cómo son las direcciones de correo electrónico. Poco más se puede añadir, no hay nada más completo:

function is_valid_email_address($email){
 $qtext = '[^\\\x22\\x5c\-\ÿ]';
 $dtext = '[^\\\x5b-\\x5d\-\ÿ]';
 $atom = '[^\-\\x20\\x22\\x28\\x29\\x2c\\x2e\\x3a-\\x3c'.
 '\\x3e\\x40\\x5b-\\x5d\\x7f-\ÿ]+';
 $quoted_pair = '\\x5c[\-\\x7f]';
 $domain_literal = "\\x5b($dtext|$quoted_pair)*\\x5d";
 $quoted_string = "\\x22($qtext|$quoted_pair)*\\x22";
 $domain_ref = $atom;
 $sub_domain = "($domain_ref|$domain_literal)";
 $word = "($atom|$quoted_string)";
 $domain = "$sub_domain(\\x2e$sub_domain)*";
 $local_part = "$word(\\x2e$word)*";
 $addr_spec = "$local_part\\x40$domain";

 return preg_match("!^$addr_spec$!", $email) ? 1 : 0;
}

Comprabando una URL

En mi sincera opinión, crear una regla genérica para comprobar una URL es un berenjenal horrible. Hace falta realizar alguna particularización. Seguidamente os pongo el código de I’m Mike.

{
 \\b
 # Match the leading part (proto://hostname, or just hostname)
 (
 # http://, or https:// leading part
 (https?)://[-\\w]+(\\.\\w[-\\w]*)+
 |
 # or, try to find a hostname with more specific sub-expression
 (?i: [a-z0-9] (?:[-a-z0-9]*[a-z0-9])? \\. )+ # sub domains
 # Now ending .com, etc. For these, require lowercase
 (?-i: com\\b
 | edu\\b
 | biz\\b
 | gov\\b
 | in(?:t|fo)\\b # .int or .info
 | mil\\b
 | net\\b
 | org\\b
 | [a-z][a-z]\\.[a-z][a-z]\\b # two-letter country code
 )
 )

 # Allow an optional port number
 ( : \\d+ )?

 # The rest of the URL is optional, and begins with /
 (
 /
 # The rest are heuristics for what seems to work well
 [^.!,?;"\\'<>()\[\]\{\}\s\x7F-\ÿ]*
 (
 [.!,?]+ [^.!,?;"\\'<>()\\[\\]\{\\}\s\\x7F-\ÿ]+
 )*
 )?
}ix

Como se puede comprobar es realmente una tarea complicada y, aunque esta regexp funciona bastante bien para la amplia mayorí­a de casos, hay TLD que se deja como por ejemplo .name, .travel, etc.

Y de momento dejo el post aquí­, ya que tengo en marcha otro sobre expresiones regulares que llegará en breve.

Update: ya tengo mi propio post sobre expresiones regulares