PRISM, XKeyscore, y una gran
cantidad de información clasificada que es gestionada por el
programa de vigilancia de la Agencia de Seguridad Nacional ha
salido a la luz desde que Edward Snowden comenzó sus fuga en mayo
de 2013. ¿Cuántos datos hay? ¿Cómo la gestiona el gobierno? ¿Qué
están aprendiendo acerca de ti? Seguidamente se muestra una guía de
la minería de datos efectuada por la NSA.
La mayoría de las personas se
introdujeron en el arcano mundo de la minería de
datos cuando el contratista, de la Agencia Nacional de
Seguridad (de EE.UU.), Edward Snowden presuntamente filtró
documentos secretos que detallan cómo el gobierno de EE.UU. utiliza
la técnica para rastrear a terroristas. El fallo de seguridad
reveló que el gobierno reúne miles de millones de piezas de datos
de las llamadas de teléfonos, correos electrónicos, fotos y vídeos
de Google, Facebook, Microsoft y otros gigantes de las
comunicaciones, a continuación, rastrea a través de la información
para obtener pistas sobre amenazas a la seguridad nacional. La
revelación causó un escándalo mundial sobre la inviolabilidad de la
vida privada, la necesidad de seguridad y los peligros del secreto
gubernamental. La gente con razón se han preocupado porque el
gobierno obtiene los datos, de todos nosotros, pero no se ha
prestado la misma atención sobre lo que en realidad se hace con
ellos.
El
panorama de la información
¿Qué cantidad de datos producimos? Un estudio
reciente realizado por IBM estima que la humanidad crea 2.5
trillones de bytes de datos cada día, (si estos bytes de datos
fueran centavos situados de forma plana, darían la vuelta a la
tierra cinco veces.) Este total incluye la información almacenada
-fotos, videos, mensajes de medios sociales, archivos de
procesamiento de texto, registros de las llamadas telefónicas,
registros financieros, y los resultados de los experimentos- y
datos que normalmente existen un momento, como el contenido de
llamadas telefónicas y chats de Skype, por ejemplo.
Información de Interés. El concepto detrás de la
operación de extracción de datos de la NSA es que esta información
digital puede ser analizada para establecer conexiones entre las
personas, y estos vínculos pueden generar oportunidades de
investigación. Sin embargo, con el fin de examinar los datos,
tienen que ser recogidos de todos. Como dice el dicho de minería de
datos: para buscar una aguja en un pajar, primero tienes que
construir un pajar.
Los datos deben ser etiquetados antes de que sean
almacenados. La minería de datos se basa en etiquetas de
metadatos que permiten a los algoritmos identificar las conexiones.
Los metadatos son datos sobre los datos -por ejemplo, los nombres y
tamaños de los archivos de su ordenador. En el mundo digital, la
etiqueta colocada en los datos se llama una etiqueta. Los datos de
marcado es un primer paso necesario para la minería de datos, ya
que permite a los analistas (o el software que utilizan) clasificar
y organizar la información para que pueda ser registrada y
procesada. El etiquetado también permite a los analistas analizar
la información sin examinar su contenido. Se trata de una cuestión
jurídica importante en la minería de datos de NSA porque las
comunicaciones de ciudadanos estadounidenses y residentes
permanentes legales en EE.UU. no pueden examinarse sin una orden
judicial. Los metadatos en una etiqueta no tiene esa protección,
así que los analistas los pueden utilizar para detectar
comportamientos sospechosos sin temor a infringir la ley.
Búsqueda de patrones en el ruido. La firma de
análisis de datos IDC estima que sólo el tres por ciento de la
información en el universo digital está marcado cuando se crea, por
lo que la NSA tiene un programa de software sofisticado que pone
miles de millones de marcadores de metadatos a la información que
recoge. Estas etiquetas son la columna vertebral de cualquier
sistema que gestiona los vínculos entre los diferentes tipos de
datos, tales como video, documentos y registros telefónicos. Por
ejemplo, la minería de datos podría llamar la atención de un
sospechoso en una lista de vigilancia que descargue propaganda
terrorista, visitas a sitios web para fabricar bombas, y además
compra una olla a presión. (Este patrón coincide con el
comportamiento de los hermanos Tsarnaev, acusados de colocar bombas
en el maratón de Boston.) Esta táctica supone que los terroristas
tienen perfiles de datos muy definidos, algo que dudan muchos
expertos en seguridad.
Software libre y secreto. La NSA ha sido
un gran promotor de software que puede manejar grandes bases de
datos. Uno de estos programas se llama Accumulo, y si bien no hay
evidencia directa de que se está utilizando en el esfuerzo para
controlar las comunicaciones mundiales, fue diseñado precisamente
para marcado de miles de millones de piezas de datos dispares, no
organizados. Es una herramienta personalizada de la agencia
secreta, que se basa en la programación de Google, en realidad es
de código abierto. Este año una compañía llamada Sqrrl la
comercializa y espera que las industrias de la salud y las finanzas
la van a usar para gestionar sus propios conjuntos de datos.
Los Mineros: ¿Quién lo hace? La NSA, y el gobierno
federal, está autorizado para espiar las comunicaciones
extranjeras. La agencia además tiene una gran cantidad de datos,
trillones de piezas de comunicación generadas por gente de todo el
mundo. La NSA no persigue a los delincuentes, terroristas y espías
que identifica, sino que tamiza la información en nombre de otros
actores gubernamentales como el Pentágono, la CIA y el FBI. Estos
son los pasos básicos: Para empezar, uno de los 11 jueces del
Tribunal Secret Foreign Intelligence Surveillance (FISA)
admite una solicitud de una agencia gubernamental para autorizar un
registro de los datos recogidos por la NSA. Una vez autorizados, la
mayoría de las aplicaciones de las solicitudes primero van a la
Unidad de Vigilancia de Comunicaciones Electrónicas del FBI (ECSU),
de acuerdo con diapositivas tomadas por Snowden. Agentes del FBI
revisan la solicitud para asegurarse de que el objetivo no son
ciudadanos estadounidenses. ECSU pasa las peticiones
correspondientes a la Unidad de Tecnología del FBI, que intercepta
los datos que obtiene de la información de los servidores de la
compañía de internet y luego la pasa a la NSA para examinar los
programas de minería de datos. (Muchas empresas de comunicación han
negado que abran sus servidores a la NSA, los funcionarios
federales dicen que cooperan, No está claro que es lo correcto.).
La NSA luego pasa la información pertinente a la agencia
gubernamental que la solicitó.
Que es la NSA hasta el momento
Minería Phone-Metadata arrastrado a la
Luz. La controversia comenzó cuando Snowden reveló que el
gobierno de EE.UU. estaba recogiendo metadatos de los registros
telefónicos de los clientes de Verizon, incluyendo a millones de
estadounidenses. A petición del FBI, el juez Roger Vinson de la
Corte FISA, emitió una resolución que obliga a la empresa a
entregar sus registros telefónicos. No se recogió el contenido de
la resolución, pero los funcionarios de seguridad nacional lo
llaman "un sistema de alerta temprana" para la detección de
complots terroristas.
Se hace público PRISM. Snowden
expuso otro esfuerzo de vigilancia de la NSA, llamado US-984XN.
Cada plataforma de recogida o fuente de información en bruto se le
da un nombre, llamado Signals Intelligence Activity Designator
(SIGAD) y un nombre en clave. SIGAD US-984XN es más conocido por su
nombre en clave: PRISM. PRISM consiste en la colección de fotos
digitales, datos almacenados, transferencias de archivos, correos
electrónicos, chats, videos y conferencias de vídeo de nueve
empresas de internet. Funcionarios estadounidenses dicen que esta
táctica ayudó a atrapar a Khalid Ouazzani, un ciudadano
nacionalizado en EE.UU. que el FBI alegó que conspiraba para volar
la Bolsa de Valores de Nueva York. Ouazzani estaba en contacto con
un extremista conocido en Yemen, que atrajo a la atención de la
NSA. Identificó a Ouazzani como posible cómplice y le dio la
información al FBI, que "subió a la vigilancia electrónica e
identificó sus coconspiradores", según el testimonio ante el
Congreso por el subdirector del FBI Sean Joyce. (Los detalles de
cómo la agencia identificó a los otros no han sido revelados.) La
trama NYSE se apagó mucho antes que el FBI interviniera, pero
Ouazzani y otros dos se declararon culpables de lavado de dinero
para apoyar a al-Qaeda. Nunca fueron acusados de nada relacionado
con el complot de las bombas.
¿Cómo se crean los datos de minería? Las
diapositivas reveladas por Snowden indican que la NSA también opera
las herramientas de vigilancia en tiempo real. Analistas de la NSA
pueden recibir "notificaciones en tiempo real de un evento de
correo electrónico como un inicio de sesión o envio mensajes" y
"notificaciones en tiempo real de una sesión de chat", dicen las
diapositivas. Eso es uso muy sencillo, pero si la información en
tiempo real puede detener los ataques sin precedentes está sujeto a
debate. Alerta sobre el titular de una tarjeta de crédito de
compras incompletos en tiempo real, es fácil, sin embargo la
construcción de un modelo fiable de un ataque inminente en tiempo
real es infinitamente más difícil.
¿Qué es XKeyscore? A finales de
julio Snowden lanzó una presentación secreta de 32 páginas, que
describe el software que puede buscar cientos de bases de datos de
clientes potenciales. Snowden afirma que este programa permite a
los analistas de bajo nivel acceder a las comunicaciones sin
supervisión, eludiendo los controles de la corte FISA. La NSA y la
Casa Blanca niegan vehementemente, y los documentos no indican
ningún mal uso. Las diapositivas describen una poderosa herramienta
que los analistas de la NSA pueden utilizar para encontrar enlaces
ocultos en el interior de la información. "Mi objetivo es de habla
alemana, pero se encuentra en Pakistán, ¿cómo puedo encontrarlo?",
indica una diapositiva. Otra pregunta: "Mi objetivo utiliza Google
Maps para ubicaciones de destinatarios, ¿puedo utilizar esta
información para determinar su dirección de correo electrónico?"
Este programa permite a los analistas realizar una consulta para
buscar 700 servidores en todo el mundo a la vez, combinando
diferentes fuentes para encontrar las respuestas a estas
preguntas.
¿Hasta dónde puedo llegar con los datos?
Falsos positivos. Los perros detectores de bombas
a veces indican explosivos que no están ahí. Este tipo de error se
conoce como un falso positivo. En la minería de datos, el
equivalente es un programa informático para husmear un conjunto de
datos y llegar a la conclusión equivocada. Esto, cuando se tiene un
conjunto masivo de datos puede ser una desventaja. Cuando un
programa examina trillones de conexiones entre los objetivos
potenciales, incluso una muy pequeña tasa de falsos positivos es
igual a decenas de miles de clientes potenciales sin salida, que
los agentes deben perseguir, por no hablar de las incursiones que
no sean necesarios en la vida de personas inocentes.
Análisis para ver el futuro. ¿Alguna vez se
preguntó el origen de recomendaciones de Netflix en el buzón de
correo electrónico o listas de lectura sugeridas en Amazon viene?
Los intereses previos dirigidos por un algoritmo para ofrecerte
productos. Las grandes empresas creen más en este tipo de marketing
que ha previsto aumentar las ventas y reducir los costos. Por
ejemplo, este año Walmart compró una startup de análisis predictivo
llamada Inkiru. La compañía elabora software que analiza datos para
ayudar a los minoristas a crear campañas de marketing para los
compradores, cuando son más propensos a adquirir ciertos
productos.
¿Reconocimiento de Patrones o Profecía? En 2011,
investigadores británicos crearon un juego de simulación, y el 60
por ciento de los jugadores "terroristas" fueron detectados por un
programa llamado DScent, en base a sus "compras" y "visitas" en el
sitio de destino. La capacidad de un equipo para ajustar
automáticamente grabaciones de seguridad de la cámara con los
registros de compras puede parecer un sueño a los agentes del orden
que tratan de salvar vidas, pero es el tipo de seguimiento ubicuo
que alarma a los defensores de las libertades civiles. Aunque ni la
NSA ni ninguna otra agencia ha sido acusadas de abusar de los datos
que recoge, el miedo de la opinión pública sobre su colección
permanece. La pregunta es, ¿cuánto confíar en las personas que se
sientan en los teclados para utilizar esta información de manera
responsable? Su respuesta determina en gran medida cómo se siente
acerca de la minería de datos de la NSA.