Autor Tema: java tarea  (Leído 3872 veces)

0 Usuarios y 1 Visitante están viendo este tema.

rudy

  • Visitante
java tarea
« : septiembre 03, 2007, 12:19:29 pm »
Estoy trabajando en un programa de un trabajo de la u. me han pedido Escribir un programa en Java que tome un fichero que contenga una página Web y le elimine todos las etiquetas html, tales como <body>, <html>, </p>, etc. (son sencillas de eliminar, porque todas van entre los caracteres “<” y “>”).

Espero me puedan ayudar o darme unas ideas o codigo que se le parezca para ver como puedo trabajar esto.

Gracias.

Desconectado Mad Max™

  • Administrator
  • The Communiter-
  • *
  • Mensajes: 7913
  • The Road Warrior
Re: java tarea
« Respuesta #1 : septiembre 03, 2007, 12:35:23 pm »
bueno, pues te recomiendo que comiences con alguna base y la publicas, por que no creo que alguien te haga o te resuelva tu tarea, y después vas a la U y decís...."vaya ya hice la tarea"

ayúdate a ti mismo primero antes de preguntar es la mejor forma de aprender   :thumbsup:

Desconectado stoke

  • Sv Member
  • ***
  • Mensajes: 342
Re: java tarea
« Respuesta #2 : septiembre 03, 2007, 01:40:25 pm »
Código: [Seleccionar]
import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
 StringBuffer s;

 public Html2Text() {}

 public void parse(Reader in) throws IOException {
   s = new StringBuffer();
   ParserDelegator delegator = new ParserDelegator();
   delegator.parse(in, this, false);
   }

 public void handleText(char[] text, int pos) {
   s.append(text);
   }

 public String getText() {
   return s.toString();
   }

 public static void main (String[] args) {
   try {
     // HTML a convertir
     FileReader in = new FileReader("fichero.html");
     Html2Text parser = new Html2Text();
     parser.parse(in);
     in.close();
     System.out.println(parser.getText());
     }
   catch (Exception e) {
     e.printStackTrace();
     }
   }
}

Si no queres usar las clases HTML del javax.swing.text.html

hacelo con una expresion regular

Código: [Seleccionar]
str = str.replaceAll("</?[A-Z]+\\b[^>]*>", "");

si lo que queres es hacerlo a puros bucles, avisa y te escribo el codigo, por que ahorita no tengo el JDK jejejejeje
« Última Modificación: septiembre 03, 2007, 01:48:43 pm por stoke »

Desconectado Jaru

  • The Communiter-
  • *
  • Mensajes: 13254
  • some text
Re: java tarea
« Respuesta #3 : septiembre 03, 2007, 03:32:33 pm »

Si no queres usar las clases HTML del javax.swing.text.html

hacelo con una expresion regular

Código: [Seleccionar]
str = str.replaceAll("</?[A-Z]+\\b[^>]*>", "");

si lo que queres es hacerlo a puros bucles, avisa y te escribo el codigo, por que ahorita no tengo el JDK jejejejeje
lo mismo iva a proponer... REGEX es lo ke mas uso en PERL :D

hey pero dejen al cipote ke aprenda tambien... minimo ni ha entendido el programa... solo denle la idea para ke kuando EL LO PROGRAME aprenda komo se hace :D
N/A

rudy

  • Visitante
Re: java tarea
« Respuesta #4 : septiembre 04, 2007, 07:56:47 am »
hey gracias por la ayuda estoy trabajando en sacar una bolsa de palabras que esten ordenadas alfabeticamente y con el codigo que me pasaron ya puedo seguir thx man.

Desconectado Mad Max™

  • Administrator
  • The Communiter-
  • *
  • Mensajes: 7913
  • The Road Warrior
Re: java tarea
« Respuesta #5 : septiembre 04, 2007, 08:27:20 am »
vaya, ya le hicieron la tarea LoL   :rofl: